O risco de privacidade dos serviços OCR online

Imagine que precisa de extrair texto de um contrato digitalizado. Ou digitalizar um registo médico confidencial. Ou copiar dados de uma declaração fiscal. Então pesquisa simplesmente por 'OCR online gratuito', encontra um serviço qualquer e carrega o seu ficheiro sem pensar duas vezes. Nesse exato momento, as suas informações pessoais mais sensíveis podem ter acabado de ser enviadas para um servidor desconhecido, sobre o qual não tem absolutamente nenhuma informação nem controlo.

OCR privacy risk illustration

O que é o OCR e por que está em todo o lado?

O OCR (Reconhecimento Ótico de Caracteres) converte texto presente em imagens — documentos digitalizados, fotos de recibos, capturas de ecrã — em texto digital totalmente editável e pesquisável. É uma das tecnologias de processamento de documentos mais utilizadas e valiosas em todo o mundo. As empresas usam o OCR para digitalizar arquivos físicos, automatizar o processamento de faturas e extrair dados de formulários em escala. Os indivíduos usam-no para criar PDFs pesquisáveis, copiar texto de fotografias e organizar recibos e documentos. Estima-se que o mercado global de OCR atinja os 32 mil milhões de dólares até 2030, refletindo a sua importância crescente. Quase todas as ferramentas de OCR gratuitas disponíveis online funcionam exatamente da mesma forma: carrega a imagem do seu documento para o servidor delas, o software processa-a remotamente e devolve-lhe o texto extraído. Funciona bem, sim. Mas as implicações para a sua privacidade são enormes e raramente discutidas.

O que acontece quando carrega documentos para servidores OCR

Quando carrega um documento para um serviço de OCR online, eis o que tipicamente acontece nos bastidores, longe da sua vista: A imagem do seu documento é transmitida pela internet para um servidor remoto — frequentemente alojado na AWS, no Google Cloud ou em infraestrutura semelhante de terceiros. Durante o processamento, o conteúdo completo do seu documento fica acessível ao software do fornecedor do serviço e, potencialmente, aos seus funcionários e administradores. Muitos serviços afirmam eliminar os ficheiros 'imediatamente após o processamento'. Mas a verdade é que a verificação dessa afirmação é praticamente impossível para o utilizador. Registos de servidor, ficheiros temporários, sistemas de backup automáticos e camadas de cache podem reter cópias do seu documento sem o seu conhecimento. Alguns serviços de OCR declaram inclusive de forma explícita, nos seus termos de serviço, que o conteúdo carregado pode ser usado para 'melhoria do serviço' — um eufemismo muito comum para o treino de modelos de IA. Os seus documentos pessoais poderão assim tornar-se dados de treino para sistemas de IA comerciais. E mesmo os serviços com políticas de privacidade aparentemente sólidas continuam vulneráveis a violações de dados, ameaças internas e pedidos de dados por parte de autoridades governamentais. A regra é simples: uma vez que o seu documento sai do seu dispositivo, perdeu todo o controlo sobre ele.

Os documentos mais perigosos para carregar

Alguns tipos de documentos comportam um risco de privacidade especialmente elevado e duradouro quando são carregados, ainda que por instantes, para servidores externos:

  • Registos médicos e prescrições — contêm condições de saúde, diagnósticos, medicamentos, nomes de médicos e identificadores pessoais especialmente protegidos por leis de privacidade de saúde rigorosas
  • Declarações fiscais e extratos financeiros — incluem valores de rendimento, números de segurança social, detalhes completos de contas bancárias e informações confidenciais do seu empregador
  • Contratos e acordos legais — contêm detalhes de negociação, termos financeiros, cláusulas de confidencialidade e informações comerciais altamente sensíveis e privadas
  • Identificação emitida pelo governo — passaportes, cartas de condução e bilhetes de identidade contêm dados biométricos, números de documentos e identificadores únicos altamente cobiçados por criminosos
  • Certificados académicos e certidões — incluem nomes legais completos, datas de nascimento e filiações institucionais que, em conjunto, podem ser facilmente usados para roubo de identidade

Como o OCR baseado no navegador protege a sua privacidade

O OCR baseado no navegador adota uma abordagem técnica fundamentalmente diferente e muito mais segura. Em vez de carregar o seu documento para um servidor remoto, é o próprio motor de OCR que é descarregado para o seu navegador e executado localmente, dentro do seu dispositivo. O SafeOCR utiliza o motor de código aberto Tesseract.js, que corre inteiramente na memória do seu navegador. As imagens dos seus documentos nunca saem do seu dispositivo — nem sequer de forma temporária ou em cache. O pipeline completo de processamento funciona da seguinte forma: 1. Seleciona uma imagem de documento — esta é carregada apenas para a memória do seu navegador 2. O pré-processamento automático (escala de cinzentos, binarização, correção de inclinação) otimiza a imagem para reconhecimento 3. O motor Tesseract.js reconhece e extrai o texto localmente, sem qualquer ligação externa 4. Exporta os resultados como PDF pesquisável, folha de Excel ou ficheiro de texto simples 5. Quando fecha o separador, todos os dados são imediata e definitivamente apagados da memória Em nenhum ponto deste processo o seu documento toca um servidor externo. E pode comprovar isto você mesmo, monitorizando o separador Rede nas ferramentas de desenvolvimento do seu navegador — verá que não é feito qualquer pedido de carregamento.

Extraia texto de documentos sensíveis — com segurança, no seu navegador

Experimente o SafeOCR agora