如何把pdf变成文字

如何把pdf变成文字

ID:32420431

大小:292.50 KB

页数:7页

时间:2019-02-04

如何把pdf变成文字_第1页
如何把pdf变成文字_第2页
如何把pdf变成文字_第3页
如何把pdf变成文字_第4页
如何把pdf变成文字_第5页
资源描述:

《如何把pdf变成文字》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、OCR:如何把扫描版pdf转变成文字版?2011-07-3111:28:39我经常在阅读扫描格式pdf的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr,它就是把文字从图像中识别抓取出来。文字版pdf的好处就是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。我分享自己的一点ocr经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr。ocr软件很多,这里只

2、根据自己的经验进行推荐,而忽略其他。首先说单页pdf的ocr这种单张图片式的文字抓取我强烈推荐JOCR。JOCR的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。JOCR(原版、汉化版、使用说明、MODI及“繁体中文识别”文件)下载:http://vdisk.weibo.com/s/uImX网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“CaptureRegion(选取需要ocr的区域)”,然后在语言框选择语

3、言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。注意:1、要成功使用JOCR,首先得保证在安装office时选择了“完整”安装选项,因为JOCR的运转是依托于MicrosoftOfficeDocumentImaging(MODI,中文OCR辨识引擎)的。Office2003的缺省安装是第一次使用MODI时安装,Office2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office,也可以只是再安装一下MODI,微软官方有下载。2、如果需要抓取繁体,而你使用的是简体wind

4、ows系统(即比如安装的是简体中文Office2003),那么请将下列“繁体中文识别”文件复制到C:ProgramFilesCommonFilesMicrosoftSharedMODI11.0TCCODE.UNITCPRINT.DATTCPRINT2.DATTCSERHT.DATTCTREE.DATTW_BU.DATTW_UB.DATTWBIG532.DLL然后双击reg文件导入注册表,ok。注意,导入注册表时必须先关闭所有MODI窗口。此时,在MODI的OCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的

5、ocr软件具有了繁体识别功能。或许你要问,JOCR的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的ocr软件往往对繁体无措或者效果不如意,而微软MODI的效果非常的理想,我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。然后说pdf批量ocr一本pdf格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr软件是ABBYYFineReader,“世界排名第一的OCR文字识别工具”是也

6、。ABBYYFineReader不依托MODI运作,不免费体积也很庞大,不过微软免费的MODI才5M多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYYFineReader中文绿色版”http://www.portablesoft.org/abbyy-finereader/。我自己比较ABBYYFineReader与MODI的效果,个人觉得MODI略胜一筹(主要在文字识别率上),至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的,而ABBYYFineReader貌似有还原版面的追求,所以可能反而把问题

7、复杂化(特别是在word中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。所以有鉴于此而推荐采用微软自带的MODI。MODI的一般使用方法是:在打开的pdf文档“文件”-“打印”-“名称”中选择“microsoftofficedocumentimagingwriter”,打印你需要的(所有)页面(这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神)。于是,它生成一个后缀名为mdi的文件。你打开这个mdi文件,在“工具”中选择“使用OCR识别文本”,然后开始可能是很漫长的识别过程,电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后

8、,你再在“工具”中选择“将文本发送到Word”,然后它为你生成一个后缀名为htm的文件,里头就有你想要的文字了。关于ocr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。