Waarom heeft u OCR nodig?
OCR (Optische tekenherkenning) is een technologie die de tekst in afbeeldingen automatisch omzet naar volledig bewerkbare en doorzoekbare digitale tekst, zodat u er daarna mee kunt werken zoals met elk ander tekstdocument. OCR is onmisbaar geworden voor het digitaliseren van papieren documenten, het snel doorzoeken van sleutelclausules in gescande contracten, het overzichtelijk ordenen van bonnetjes in spreadsheets en het rechtstreeks kopiëren van tekst uit PDF's en foto's. Bedrijven gebruiken het op grote schaal om duizenden documenten automatisch te classificeren, te indexeren en te archiveren, waardoor handmatig overtypen volledig overbodig wordt. Particulieren zetten het juist in om doorzoekbare back-ups van belangrijke documenten te maken, om tekst uit een foto over te nemen of om oude papieren administratie eindelijk digitaal toegankelijk te maken voor de toekomst.
De beveiligingsrisico's van cloud-OCR
De meeste OCR-diensten uploaden uw documenten naar hun servers om ze te verwerken. Dit zijn de risico's die dat met zich meebrengt. Uw documenten kunnen op servers worden opgeslagen. Veel diensten beloven de bestanden onmiddellijk na verwerking te verwijderen, maar er is geen enkele manier om dit te verifiëren. Wordt de server gehackt, dan kunnen uw opgeslagen documenten worden blootgesteld. Onderschepping tijdens de overdracht is mogelijk. Zelfs met HTTPS-versleuteling kunnen man-in-the-middle-aanvallen of kwetsbaarheden aan de serverzijde uw gegevens alsnog prijsgeven. Toegang door derden is een reële mogelijkheid. Sommige gratis OCR-diensten kunnen geüploade documenten gebruiken als AI-trainingsdata of voor advertentiedoeleinden.
Hoe werkt browsergebaseerde OCR?
SafeOCR gebruikt de open-source Tesseract.js-engine, die rechtstreeks in uw browser wordt geladen en uitgevoerd, zonder enige serververbinding. Zo werkt het in de praktijk: wanneer u een documentafbeelding selecteert, wordt deze in het geheugen van uw browser geladen. Automatische voorverwerking (grijswaarden, binarisering en scheefstandscorrectie) optimaliseert vervolgens de beeldkwaliteit. De Tesseract.js-engine herkent daarna de tekst volledig binnen uw browser. Tot slot exporteert u de resultaten als PDF-, Excel- of tekstbestand. Gedurende dit hele proces worden uw documentafbeeldingen nooit naar een externe server verzonden. En zodra u het browsertabblad sluit, worden alle gegevens onmiddellijk uit het geheugen gewist.
5 tips voor betere OCR-nauwkeurigheid
- Gebruik afbeeldingen met een hoge resolutie. Wij raden een minimale scanresolutie van 300 DPI aan. Een hogere resolutie zorgt ervoor dat zelfs kleine lettertekens nauwkeurig worden herkend.
- Houd uw documenten recht. De automatische scheefstandscorrectie van SafeOCR helpt, maar beginnen met een goed uitgelijnd origineel levert vrijwel altijd betere resultaten op.
- Zorg voor gelijkmatige verlichting. Schaduwen en schittering verminderen de herkenningsnauwkeurigheid aanzienlijk. Gebruik een flatbedscanner of fotografeer uw documenten onder natuurlijk, diffuus licht.
- Kies de juiste kwaliteitsmodus. Schone, gedrukte documenten werken prima met de modus 'Snel', maar voor handschrift of documenten van lage kwaliteit gebruikt u beter de modus 'Nauwkeurig' voor betere resultaten.
- Selecteer de juiste taal. Door de primaire taal van het document op te geven, kan de herkenningsengine een geoptimaliseerd taalmodel gebruiken, wat de nauwkeurigheid aanzienlijk verbetert.
Ondersteunde indelingen en exportopties
SafeOCR ondersteunt de afbeeldingsindelingen JPEG, PNG, BMP, TIFF en WebP. U kunt maximaal 10 afbeeldingen tegelijkertijd verwerken, met een maximale bestandsgrootte van 20 MB per stuk. Er zijn vier exportindelingen beschikbaar: een doorzoekbare PDF (waarin u met Ctrl+F kunt zoeken), Excel XLSX (met automatische tabeldetectie en -conversie), platte tekst in TXT-formaat, en rechtstreeks kopiëren naar het klembord. Meer dan 100 talen worden ondersteund, met een hoge nauwkeurigheid voor de belangrijkste talen, waaronder Nederlands, Engels, Koreaans, Japans, Chinees en Arabisch.