开源是首选,但不是必需的. 我有Adobe Acrobat 8,并且非常喜欢OCR功能,它基本上可以在扫描文档的顶部放置一层看不见的OCR文本.因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索
我有Adobe Acrobat 8,并且非常喜欢OCR功能,它基本上可以在扫描文档的顶部放置一层看不见的OCR文本.因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的.
我正在寻找的是一种自动化这一过程的方法.我目前有一些脚本用于处理和存档扫描文件,我正在寻找一些我可以直接插入这个批处理过程的东西,以类似于我用Acrobat做的方式进行OCR.
欢迎所有建议,谢谢!
我在公司文档存档项目中实现了这一点.扫描的文件是tif文件(单页).然后使用 Cuneiform创建单个tif的特定文件.然后使用 hocr2pdf输出PDF文件.如果有多个扫描页面,我使用gs将PDF组合成一个PDF文档.工作非常好,OCR足以满足我们的需求,并且可以在任何PDF查看器中搜索.