一个免费的OCR工具

  有时候我们需要将图片中的文字识别成可编辑的格式,这就要用到OCR工具,常用的OCR工具有汉王公司开发的OCR识别软件等。但是,那些软件都是收费的,为了偶尔的一次使用,没必要去购买一套。其实,Microsoft Office已经为我们提供了该功能。

  在安装Office 2003时会默认(Office 2007默认不安装,需要手动添加)为我们安装一个虚拟的打印机——Microsoft Office Document Imaging,利用该虚拟打印机可以将任何文件打印成类似于PDF格式的文件,其后缀为.mdi。该虚拟打印机同时集成了OCR功能,通过Microsoft Office Document Imaging做文字识别的方法是:

  将待识别的图片进行打印,打印时选打印机为“Microsoft Office Document Imaging”,这时出现保存对话框,选取“Microsoft Document Imaging 格式(*.mdi)”进行保存,之后Microsoft Office Document Imaging会自动打开该文件(如果没有自动打开,双击保存的文件即可),可以看到一个类似于Adobe Reader的界面,单击“工具”菜单,选“使用OCR识别文本”,在弹出的对话框中选择识别的范围,还可点“选项”按钮进行更多设置,然后点确定就可以自动进行识别了。等识别完成后,再用选择工具对图片中的文字进行框选,这时会发现文字可以被选取了,然后就可以复制到到其他软件中进行编辑了。另外,还可以选“工具”—“将文本发送到Word”,设置好参数后将识别后的文本保存成Word文件,而不用再复制了。Microsoft Office Document Imaging的识别率相当高,对于打印的文字可以达到95%以上,甚至在南京夫子庙拍摄的明远楼的牌匾上的字都识别出来了,当然,识别率就没这么高了。

  本方法在Office 2007下未实验成功,一是利用Microsoft Office Document Imaging虚拟打印时没有“Microsoft Document Imaging 格式(*.mdi)”选项,需要手工输入后缀;二是识别时软件会出错重启。不知是为什么,等研究好了再告诉大家。

您也许对以下文章感兴趣:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注