Het privacyrisico van online OCR-diensten

Wat is OCR en waarom is het overal?

OCR (Optical Character Recognition) converteert tekst in afbeeldingen — gescande documenten, foto's van bonnetjes, schermafbeeldingen — naar bewerkbare, doorzoekbare digitale tekst. Het is een van de meest gebruikte documentverwerkingstechnologieën ter wereld en zit verwerkt in talloze apps die u dagelijks gebruikt. Bedrijven gebruiken OCR om hele archieven te digitaliseren, factuurverwerking te automatiseren en gegevens uit formulieren te halen. Particulieren gebruiken het om doorzoekbare PDF's te maken, tekst uit foto's te kopiëren en bonnetjes te ordenen. De wereldwijde OCR-markt zal naar verwachting tegen 2030 een omvang van zo'n 32 miljard dollar bereiken. Bijna elke gratis online OCR-tool werkt op exact dezelfde manier: u uploadt uw documentafbeelding naar hun server, hun software verwerkt deze, en vervolgens downloadt u de geëxtraheerde tekst. Het werkt prima. Maar de privacyimplicaties van die ene uploadstap zijn enorm en worden zelden uitgelegd.

Wat er gebeurt wanneer u documenten uploadt naar OCR-servers

Wanneer u een document uploadt naar een online OCR-dienst, is dit wat er doorgaans achter de schermen gebeurt, vaak zonder dat u het merkt: Uw documentafbeelding wordt verzonden naar een externe server — meestal gehost op infrastructuur zoals AWS, Google Cloud of een vergelijkbare aanbieder. Tijdens de verwerking is de volledige inhoud van uw document toegankelijk voor de software van de dienstverlener en potentieel ook voor hun medewerkers. Veel diensten beweren bestanden 'onmiddellijk na verwerking' te verwijderen. Maar verificatie hiervan is voor u onmogelijk. Serverlogs, tijdelijke bestanden, back-upsystemen en cachinglagen kunnen kopieën bewaren zonder dat u daar enig weet van heeft. Sommige OCR-diensten vermelden bovendien expliciet in hun servicevoorwaarden dat geüploade inhoud mag worden gebruikt voor 'serviceverbetering' — een veelgehoord eufemisme voor het trainen van AI-modellen. Uw persoonlijke documenten kunnen op die manier trainingsgegevens worden voor commerciële AI-systemen. En zelfs diensten met een op papier sterk privacybeleid blijven kwetsbaar voor datalekken, kwaadwillende insiders en overheidsverzoeken om gegevens. De harde waarheid is: zodra uw document uw apparaat verlaat, heeft u de controle erover definitief verloren.

De gevaarlijkste documenten om te uploaden

Sommige documenten dragen een bijzonder hoog privacyrisico met zich mee op het moment dat ze naar externe servers worden geüpload, omdat de gevolgen van blootstelling zo ingrijpend zijn:

Medische dossiers en recepten — deze bevatten uw gezondheidstoestand, medicatie, namen van behandelende artsen en persoonsidentificatoren die juist worden beschermd door strenge wetgeving inzake gezondheidsprivacy
Belastingaangiften en financiële overzichten — deze bevatten inkomensgegevens, burgerservicenummers, bankrekeningdetails en werkgeversinformatie die voor fraude kunnen worden misbruikt
Juridische contracten en overeenkomsten — deze bevatten gevoelige onderhandelingsdetails, financiële voorwaarden en vertrouwelijke bedrijfsinformatie die niet in verkeerde handen mag vallen
Door de overheid uitgegeven identificatie — paspoorten, rijbewijzen en identiteitskaarten bevatten biometrische gegevens en unieke identificatoren die de basis vormen voor identiteitsdiefstal
Academische transcripten en certificaten — deze bevatten volledige juridische namen, geboortedatums en institutionele affiliaties die rechtstreeks kunnen worden gebruikt voor identiteitsdiefstal

Hoe browsergebaseerde OCR uw privacy beschermt

Browsergebaseerde OCR hanteert een fundamenteel andere aanpak dan clouddiensten. In plaats van uw document naar een server te uploaden, wordt de OCR-engine zelf naar uw browser gedownload en volledig lokaal op uw eigen apparaat uitgevoerd. SafeOCR gebruikt de open-source Tesseract.js-engine, die in zijn geheel in het werkgeheugen van uw browser draait. Uw documentafbeeldingen verlaten uw apparaat nooit — zelfs niet tijdelijk of in versleutelde vorm. De verwerkingspijplijn werkt stap voor stap als volgt: 1. U selecteert een documentafbeelding — deze wordt rechtstreeks in het geheugen van uw browser geladen 2. Automatische voorverwerking (grijswaarden, binarisering en uitlijning) optimaliseert de afbeelding voor de beste herkenning 3. De Tesseract.js-engine herkent en extraheert de tekst volledig lokaal, zonder netwerkverbinding 4. U exporteert de resultaten als doorzoekbare PDF, Excel-bestand of platte tekst 5. Zodra u het tabblad sluit, worden alle gegevens onmiddellijk en volledig uit het geheugen gewist Op geen enkel moment in dit proces komt uw document in contact met een server. U kunt dit bovendien zelf controleren door het tabblad Netwerk in de ontwikkelaarstools van uw browser te monitoren — u zult zien dat er geen enkel uploadverzoek wordt gedaan.