Ryzyko prywatności w online'owych usługach OCR

Czym jest OCR i dlaczego jest wszędzie?

OCR (Optical Character Recognition — Optyczne Rozpoznawanie Znaków) to technologia konwertująca tekst widoczny na obrazach — zeskanowane dokumenty, zdjęcia paragonów, zrzuty ekranu — na edytowalny i przeszukiwalny tekst cyfrowy. Jest to jedna z najszerzej stosowanych technologii przetwarzania dokumentów na świecie. Firmy używają OCR do masowej digitalizacji archiwów papierowych, automatyzacji przetwarzania faktur oraz wyodrębniania danych z formularzy. Osoby prywatne wykorzystują ją z kolei do tworzenia przeszukiwalnych plików PDF, kopiowania tekstu ze zdjęć i porządkowania paragonów. Według prognoz globalny rynek OCR osiągnie wartość około 32 miliardów dolarów do 2030 roku. Niemal każde bezpłatne narzędzie OCR dostępne online działa według tego samego schematu: przesyłasz obraz dokumentu na ich serwer, ich oprogramowanie go przetwarza, a Ty pobierasz wyodrębniony tekst. To działa i bywa wygodne. Ale implikacje dla Twojej prywatności są naprawdę ogromne i rzadko brane pod uwagę.

Co dzieje się, gdy przesyłasz dokumenty na serwery OCR

Gdy przesyłasz dokument do internetowej usługi OCR, oto co typowo dzieje się za kulisami, poza Twoim polem widzenia: Obraz Twojego dokumentu jest transmitowany na zdalny serwer — często hostowany na infrastrukturze AWS, Google Cloud lub podobnej. Podczas całego procesu przetwarzania pełna zawartość dokumentu jest dostępna dla oprogramowania dostawcy usługi, a potencjalnie również dla jego pracowników i administratorów. Wiele usług deklaruje, że usuwa przesłane pliki 'natychmiast po przetworzeniu'. Problem w tym, że weryfikacja takiej obietnicy jest dla użytkownika praktycznie niemożliwa. Dzienniki serwera, pliki tymczasowe, automatyczne systemy kopii zapasowych oraz warstwy pamięci podręcznej mogą przechowywać kopie Twojego dokumentu zupełnie bez Twojej wiedzy. Niektóre usługi OCR wprost stwierdzają w swoim regulaminie, że przesłana zawartość może być używana do 'ulepszania usług' — co jest powszechnym eufemizmem oznaczającym trenowanie modeli AI. Twoje osobiste dokumenty mogą w ten sposób stać się danymi treningowymi dla komercyjnych systemów sztucznej inteligencji. Nawet usługi z najlepszymi politykami prywatności pozostają podatne na naruszenia danych, zagrożenia ze strony nieuczciwych pracowników oraz rządowe żądania udostępnienia danych. Prawda jest prosta: w chwili, gdy Twój dokument opuszcza urządzenie, bezpowrotnie tracisz nad nim kontrolę.

Najbardziej niebezpieczne dokumenty do przesyłania

Niektóre kategorie dokumentów niosą ze sobą szczególnie wysokie ryzyko naruszenia prywatności w momencie przesłania ich na zewnętrzne serwery — należą do nich między innymi:

Dokumentacja medyczna i recepty — zawierają informacje o schorzeniach, przyjmowanych lekach, nazwiska lekarzy oraz identyfikatory osobowe chronione szczególnymi przepisami o ochronie prywatności danych zdrowotnych
Zeznania podatkowe i wyciągi finansowe — zawierają szczegółowe dane o dochodach, numery PESEL, dane kont bankowych oraz informacje o pracodawcy, które są łakomym kąskiem dla oszustów
Umowy i porozumienia prawne — zawierają szczegóły negocjacji, poufne warunki finansowe oraz wrażliwe informacje biznesowe objęte często tajemnicą handlową
Dokumenty tożsamości wydane przez organy państwowe — paszporty, prawa jazdy oraz dowody osobiste zawierają dane biometryczne i unikalne identyfikatory wykorzystywane do weryfikacji tożsamości
Dyplomy akademickie i certyfikaty zawodowe — zawierają pełne imiona i nazwiska, daty urodzenia oraz przynależności instytucjonalne, które mogą zostać wykorzystane do kradzieży tożsamości i podszywania się

Jak OCR oparty na przeglądarce chroni Twoją prywatność

OCR oparty na przeglądarce stosuje fundamentalnie odmienne podejście niż usługi chmurowe. Zamiast przesyłać Twój dokument na zdalny serwer, to sam silnik OCR jest jednorazowo pobierany do przeglądarki i uruchamiany w całości lokalnie na Twoim urządzeniu. SafeOCR wykorzystuje silnik open source Tesseract.js, który działa całkowicie w pamięci przeglądarki. Obrazy Twoich dokumentów nigdy nie opuszczają urządzenia — nawet na ułamek sekundy, nawet tymczasowo. Cały potok przetwarzania przebiega następująco: 1. Wybierasz obraz dokumentu — zostaje on załadowany bezpośrednio do pamięci przeglądarki 2. Automatyczne wstępne przetwarzanie (konwersja na skalę szarości, binaryzacja, prostowanie przekrzywienia) optymalizuje obraz pod kątem rozpoznawania 3. Silnik Tesseract.js rozpoznaje i wyodrębnia tekst w całości lokalnie, bez połączenia z siecią 4. Eksportujesz gotowe wyniki jako przeszukiwalny plik PDF, arkusz Excel lub zwykły tekst 5. Po zamknięciu karty wszystkie dane są bezpowrotnie czyszczone z pamięci urządzenia W żadnym momencie tego procesu Twój dokument nie trafia na zewnętrzny serwer. Możesz to bez trudu zweryfikować samodzielnie, monitorując kartę Sieć w narzędziach deweloperskich przeglądarki — przekonasz się, że nie są wysyłane żadne żądania przesyłania pliku.