Il rischio per la privacy dei servizi OCR online

Cos'è l'OCR e perché è ovunque?

L'OCR (Optical Character Recognition, riconoscimento ottico dei caratteri) converte il testo contenuto nelle immagini — documenti scansionati, foto di ricevute, screenshot — in testo digitale modificabile e ricercabile. Si tratta di una delle tecnologie di elaborazione documentale più diffuse e utilizzate al mondo. Le aziende ricorrono all'OCR per digitalizzare interi archivi cartacei, automatizzare l'elaborazione delle fatture ed estrarre dati strutturati dai moduli. I privati lo usano invece per creare PDF ricercabili, copiare testo dalle foto e organizzare le ricevute. Si stima che il mercato globale dell'OCR raggiungerà i 32 miliardi di dollari entro il 2030. Quasi tutti gli strumenti OCR gratuiti disponibili online funzionano nello stesso modo: caricano l'immagine del suo documento sul server, il software la elabora e infine lei scarica il testo estratto. Il sistema funziona, è innegabile. Ma le implicazioni per la sua privacy sono enormi e troppo spesso sottovalutate.

Cosa succede quando carica documenti su server OCR

Quando carica un documento su un servizio OCR online, ecco cosa accade tipicamente dietro le quinte, lontano dai suoi occhi: L'immagine del suo documento viene trasmessa a un server remoto — spesso ospitato su infrastrutture come AWS, Google Cloud o servizi simili. Durante l'elaborazione, l'intero contenuto del suo documento risulta accessibile al software del fornitore del servizio e, potenzialmente, anche ai suoi dipendenti. Molti servizi dichiarano di eliminare i file "immediatamente dopo l'elaborazione". Ma verificare questa affermazione è di fatto impossibile. Log del server, file temporanei, sistemi di backup automatici e livelli di caching possono conservare copie del suo documento a sua completa insaputa. Alcuni servizi OCR specificano esplicitamente nei propri termini di servizio che i contenuti caricati possono essere utilizzati per il "miglioramento del servizio" — un eufemismo molto diffuso per indicare l'addestramento di modelli di IA. I suoi documenti personali potrebbero così trasformarsi in dati di training per sistemi commerciali. Infine, anche i servizi dotati di solide politiche sulla privacy restano comunque vulnerabili a violazioni dei dati, minacce interne e richieste di accesso da parte delle autorità governative. Una volta che il suo documento lascia il suo dispositivo, lei ne ha irrimediabilmente perso il controllo.

I documenti più pericolosi da caricare

Alcune categorie di documenti comportano un rischio per la privacy particolarmente elevato quando vengono caricate su server esterni, e meritano quindi la massima cautela:

Cartelle cliniche e ricette mediche — contengono condizioni di salute, terapie farmacologiche, nomi dei medici curanti e identificatori personali protetti dalle leggi sulla privacy sanitaria
Dichiarazioni dei redditi e rendiconti finanziari — includono cifre di reddito, codici fiscali, dettagli dei conti bancari e informazioni sul datore di lavoro che fanno gola ai criminali informatici
Contratti e accordi legali — contengono dettagli riservati delle trattative, termini economici e informazioni aziendali strettamente confidenziali che non devono trapelare
Documenti d'identità rilasciati dalle autorità — passaporti, patenti di guida e carte d'identità contengono dati biometrici e identificatori univoci difficilmente sostituibili
Certificati e trascrizioni accademiche — includono nomi legali completi, date di nascita e affiliazioni istituzionali che possono essere sfruttati per il furto d'identità

Come l'OCR basato sul browser protegge la sua privacy

L'OCR basato sul browser adotta un approccio radicalmente diverso e molto più rispettoso della privacy. Invece di caricare il suo documento su un server, è il motore OCR stesso a essere scaricato nel suo browser ed eseguito interamente in locale, sul suo dispositivo. SafeOCR utilizza il motore open-source Tesseract.js, che gira completamente nella memoria del suo browser. Le immagini dei suoi documenti non lasciano mai il suo dispositivo — nemmeno per un istante e nemmeno temporaneamente. Nel dettaglio, il processo funziona così: 1. Seleziona un'immagine del documento, che viene caricata esclusivamente nella memoria del suo browser 2. La preelaborazione automatica (conversione in scala di grigi, binarizzazione, raddrizzamento dell'inclinazione) ottimizza l'immagine per il riconoscimento 3. Il motore Tesseract.js riconosce ed estrae il testo localmente, senza alcuna connessione esterna 4. Esporta i risultati nel formato che preferisce: PDF ricercabile, foglio Excel oppure testo semplice 5. Quando chiude la scheda del browser, tutti i dati vengono immediatamente e definitivamente cancellati dalla memoria In nessun momento di questo processo il suo documento tocca un server remoto. Può verificarlo personalmente e con facilità monitorando la scheda Rete negli strumenti per sviluppatori del suo browser: non troverà alcuna richiesta di caricamento.