为什么您需要 OCR?
OCR(光学字符识别)是一项把图像中的文字转换为可编辑、可搜索的数字文本的技术。 OCR 对于以下场景都至关重要:数字化纸质文档、在扫描的合同中搜索关键条款、把收据整理成电子表格,以及从 PDF 中复制文字。企业用它来自动分类和归档成千上万份文档,而个人则用它来为各种重要记录创建可搜索的备份。
云 OCR 的安全风险
绝大多数 OCR 服务都会把您的文档上传到服务器上进行处理。以下就是由此可能带来的种种风险。 您的文档可能被存储在服务器上。许多服务虽然承诺会在处理后立即删除文件,但这一点根本无从验证。一旦服务器遭到黑客入侵,您存储在上面的文档就可能被暴露出去。 传输过程中也可能被截获。即便使用了 HTTPS 加密,中间人攻击或服务器端的漏洞,仍有可能让您的数据暴露无遗。 第三方访问更是一种真实存在的可能性。某些免费的 OCR 服务,可能会把上传的文档当作 AI 训练数据来用,或将其用于广告定向投放的目的。
浏览器端 OCR 如何工作?
SafeOCR 使用开源的 Tesseract.js 引擎,直接在您的浏览器中加载并执行。 其工作原理如下:当您选好文档图像后,它会被加载进浏览器内存之中。系统随即自动进行预处理(灰度转换、二值化、纠偏校正)以优化图像质量。接着,Tesseract.js 引擎会完全在浏览器内部完成文字识别。最后,您将识别结果导出为 PDF、Excel 或文本文件。 在整个过程之中,您的文档图像绝不会被发送到任何外部服务器。而当您关闭浏览器标签页时,所有数据都会从内存中被彻底清除。
提高 OCR 准确率的 5 个技巧
- 使用高分辨率图像。建议扫描分辨率最低不要低于 300 DPI。分辨率越高,即便是很小的字体也越能被准确无误地识别出来。
- 保持文档平整。SafeOCR 的自动纠偏功能虽然会有所帮助,但从一开始就把原件摆放对齐,总是能产生更理想的识别结果。
- 确保光照均匀。阴影和强烈的反光都会拉低识别准确率。请使用平板扫描仪,或在自然漫射光下拍摄文档。
- 选择恰当的质量模式。对于干净的印刷文档,使用"快速"模式即已足够;但对于手写体或质量较差的文档,请改用"精确"模式以获得更好的效果。
- 选择正确的语言。指定文档的主要语言,能让识别引擎调用经过优化的专门模型,从而显著提升识别的准确率。
支持的格式和导出选项
SafeOCR 支持 JPEG、PNG、BMP、TIFF 和 WebP 等多种图像格式。您一次最多可以处理 10 张图像,且每个文件的体积上限为 20 MB。 它提供四种导出格式可供选择:可搜索 PDF(支持 Ctrl+F 全文检索)、Excel XLSX(可自动检测表格并完成转换)、纯文本 TXT,以及一键复制到剪贴板。 它支持 100 多种语言,并对英语、韩语、日语、中文和阿拉伯语等主要语言保持着很高的识别准确率。