从pdf图片中抓取文字.doc

从pdf图片中抓取文字.doc

ID:62048826

大小:81.50 KB

页数:3页

时间:2021-04-16

从pdf图片中抓取文字.doc_第1页
从pdf图片中抓取文字.doc_第2页
从pdf图片中抓取文字.doc_第3页
资源描述:

《从pdf图片中抓取文字.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、个人收集整理勿做商业用途从pdf图片中抓取文字Home >今日一点,技术分析>从pdf图片中抓取文字 Posted onApril23, 2008 by 白菜林从pdf中抓取文字原理:利用office的虚拟打印机Microsoft Office Document Image Writer把图片或者pdf打印到tiff或者mdi格式的文件,然后关联使用MicrosoftOffice DocumentImaging打开tiff或者mdi文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”(或者直接选择“将文本发送到word”,会提示你先进

2、行ocr识别,然后会自动开始),最后将把整个PDF文件识别输出到word文件中。原理就是这样子啦,操作也很简单,MicrosoftOfficeDocument Imaging的安装我就不说啦,早些时候已经说过啦,可以参考:windows的的墨水服务『office2007的MicrosoftOfficeDocument Image安装』。下边说说pdf文件中文字的识别以文本形式保存的PDF文件:可以使用gmail发附件然后使用viewhtml查看或者acrobat reader直接选中文字部分复制粘贴到记事本中或者word中即可。以图片形式存在的pdf文件:这样gmail的附件就无能为力啦,就

3、用到MicrosoftOfficeDocumentImaging啦,不过这个貌似对中文支持的不好(我的office2007+xpsp2的环境),这个倒是个多面玲珑角色,可以搞定很多格式文档的转换。加密的pdf文件:先解密在继续啦。繁体pdf文件:先识别到word,然后利用word的“工具”--“语言”---“中文繁简转换”上边说过这个Microsoft OfficeDocumentImaging对中文的图片中的文字识别的可能有问题(直接崩溃啦嘛),so昨晚我抓去图片中的文字就不是使用的这个Microsoft OfficeDocumentImaging,而是使用的尚书七号,如果需要可以到这里下

4、载地址:http://cid-70082f3907228a49.skydrive.live.com/self.aspx/soft/shangshuqihao-ocr-zhuceban.zip个人收集整理勿做商业用途首先把pdf转换为图片bmp,jpg的都行,也可以用photoshop来搞成图片(不过注意图片质量一定要好啊)。然后使用尚书七号打开,具体步骤:工具菜单——版面分析(自动分析后若有错误可以自己用鼠标修改)——开始识别——纠错(有错误就改吧,鼠标选中就修改啦!!)——输出到指定格式——保存为txt的文本就是啦(根据自己需要啦有txt,rtf,htm,xls)。ﻫ这几个图没分顺序,不过

5、很好认啦。补充:ﻫ1,由于虚拟打印到MicrosoftOfficeDocumentImageWriter个人收集整理勿做商业用途比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:windowstemp目录下的虚拟打印文件,否则你的c盘很快会被用光。2,建议如果发生打印到MicrosoftOfficeDocument ImageWriter很慢或

6、者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比MicrosoftOfficeDocument Image Writer快,然后在snagit中,选择打印机为MicrosoftOfficeDocumentImageWriter打印机,(相当于再打印到MicrosoftOffice DocumentImageWriter打印机),然后选择snagit—outputs下的printer,然后选择snagit—-file—-finishoutput,即可生成msi文件,其他一样。3,对于把pdf转换为图片格式可以使用更专业的软件,搜下就有啦“pdf转换为图片”。比如

7、:pdftojpg转载原创文章请注明,转载自:[Lin'sSpace

8、Only]本文链接:http://clin003.com/technical-analysis/pdf-crawl-from-the-text-in-the-picture-1007/Google比较注重原创性和时效性,若没有找到需要的内容可尝试以下搜素。Thisentry waspostedin今日一点, 技术分析andtagged Mi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。