O risco de privacidade dos serviços OCR online

O que é o OCR e por que está em todo o lado?

O OCR (Reconhecimento Ótico de Caracteres) converte texto presente em imagens — documentos digitalizados, fotos de recibos, capturas de ecrã — em texto digital totalmente editável e pesquisável. É uma das tecnologias de processamento de documentos mais utilizadas e valiosas em todo o mundo. As empresas usam o OCR para digitalizar arquivos físicos, automatizar o processamento de faturas e extrair dados de formulários em escala. Os indivíduos usam-no para criar PDFs pesquisáveis, copiar texto de fotografias e organizar recibos e documentos. Estima-se que o mercado global de OCR atinja os 32 mil milhões de dólares até 2030, refletindo a sua importância crescente. Quase todas as ferramentas de OCR gratuitas disponíveis online funcionam exatamente da mesma forma: carrega a imagem do seu documento para o servidor delas, o software processa-a remotamente e devolve-lhe o texto extraído. Funciona bem, sim. Mas as implicações para a sua privacidade são enormes e raramente discutidas.

O que acontece quando carrega documentos para servidores OCR

Quando carrega um documento para um serviço de OCR online, eis o que tipicamente acontece nos bastidores, longe da sua vista: A imagem do seu documento é transmitida pela internet para um servidor remoto — frequentemente alojado na AWS, no Google Cloud ou em infraestrutura semelhante de terceiros. Durante o processamento, o conteúdo completo do seu documento fica acessível ao software do fornecedor do serviço e, potencialmente, aos seus funcionários e administradores. Muitos serviços afirmam eliminar os ficheiros 'imediatamente após o processamento'. Mas a verdade é que a verificação dessa afirmação é praticamente impossível para o utilizador. Registos de servidor, ficheiros temporários, sistemas de backup automáticos e camadas de cache podem reter cópias do seu documento sem o seu conhecimento. Alguns serviços de OCR declaram inclusive de forma explícita, nos seus termos de serviço, que o conteúdo carregado pode ser usado para 'melhoria do serviço' — um eufemismo muito comum para o treino de modelos de IA. Os seus documentos pessoais poderão assim tornar-se dados de treino para sistemas de IA comerciais. E mesmo os serviços com políticas de privacidade aparentemente sólidas continuam vulneráveis a violações de dados, ameaças internas e pedidos de dados por parte de autoridades governamentais. A regra é simples: uma vez que o seu documento sai do seu dispositivo, perdeu todo o controlo sobre ele.

Os documentos mais perigosos para carregar

Alguns tipos de documentos comportam um risco de privacidade especialmente elevado e duradouro quando são carregados, ainda que por instantes, para servidores externos:

Registos médicos e prescrições — contêm condições de saúde, diagnósticos, medicamentos, nomes de médicos e identificadores pessoais especialmente protegidos por leis de privacidade de saúde rigorosas
Declarações fiscais e extratos financeiros — incluem valores de rendimento, números de segurança social, detalhes completos de contas bancárias e informações confidenciais do seu empregador
Contratos e acordos legais — contêm detalhes de negociação, termos financeiros, cláusulas de confidencialidade e informações comerciais altamente sensíveis e privadas
Identificação emitida pelo governo — passaportes, cartas de condução e bilhetes de identidade contêm dados biométricos, números de documentos e identificadores únicos altamente cobiçados por criminosos
Certificados académicos e certidões — incluem nomes legais completos, datas de nascimento e filiações institucionais que, em conjunto, podem ser facilmente usados para roubo de identidade

Como o OCR baseado no navegador protege a sua privacidade

O OCR baseado no navegador adota uma abordagem técnica fundamentalmente diferente e muito mais segura. Em vez de carregar o seu documento para um servidor remoto, é o próprio motor de OCR que é descarregado para o seu navegador e executado localmente, dentro do seu dispositivo. O SafeOCR utiliza o motor de código aberto Tesseract.js, que corre inteiramente na memória do seu navegador. As imagens dos seus documentos nunca saem do seu dispositivo — nem sequer de forma temporária ou em cache. O pipeline completo de processamento funciona da seguinte forma: 1. Seleciona uma imagem de documento — esta é carregada apenas para a memória do seu navegador 2. O pré-processamento automático (escala de cinzentos, binarização, correção de inclinação) otimiza a imagem para reconhecimento 3. O motor Tesseract.js reconhece e extrai o texto localmente, sem qualquer ligação externa 4. Exporta os resultados como PDF pesquisável, folha de Excel ou ficheiro de texto simples 5. Quando fecha o separador, todos os dados são imediata e definitivamente apagados da memória Em nenhum ponto deste processo o seu documento toca um servidor externo. E pode comprovar isto você mesmo, monitorizando o separador Rede nas ferramentas de desenvolvimento do seu navegador — verá que não é feito qualquer pedido de carregamento.