文本识别 一网打尽

文本识别 一网打尽

ID:33540663

大小:610.00 KB

页数:9页

时间:2019-02-27

文本识别 一网打尽_第1页
文本识别 一网打尽_第2页
文本识别 一网打尽_第3页
文本识别 一网打尽_第4页
文本识别 一网打尽_第5页
资源描述:

《文本识别 一网打尽》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本识别一网打尽郭萍(仙桃职业学院计科院 湖北仙桃 433000)踏破铁鞋无觅处,得来全不费工夫。当我们好不容易找到一篇文章,就因为是纸质的,无法在电脑上操作,必须重新手工录入;就因为是PDF或其他电子格式,有的甚至进行了加密,无法编辑和排版,只能望文兴叹。文档最终只有转换成word和txt文档,才能得以随心所欲。对于文档转换,笔者在长期的文字编辑过程中摸索出了一套行之有效的办法。不管是纸上、屏幕看到的,还是各种类型的电子文档,都能顺利转换成能够编辑的文本。总的流程是:将纸质书面材料扫描成图片文件或将屏幕文字截屏保存为图片;将图片文件制成PDF文档;使用CAJ

2、Viewer对PDF文件进行文本识别。其核心是运用CAJViewer内置的OCR文本识别功能实现文档格式转换。1 认识ImageToPDF和CAJViewerImageToPDF可以转换bmp、jpg、gif、tiff、png、psd、pcx、tga、wmf等图像文件到PDF文件格式。它支持多线程批处理,操作简单灵活,支持右键,支持将整个盘中的文件拖入转换;可以将众多图像文件合成一个PDF文件。下载地址为:http://www.newhua.com/softdown/41429_2.htmCAJViewer是中国知网专用的学术文献浏览软件,兼容多种文献格式,支

3、持PDF的浏览和集成OCR文本识别,可以轻松识别和复制各类电子文档,实现文档格式的转换,大大节省了文档录入编辑的时间。下载地址为:http://www.cnki.net/software/xzydq.htm2 纸质文档的扫描或屏幕文字的截取扫描生成文件格式一般有jpeg、bmp、tiff等。为了识别提高识别效果,请将格式设置成bmp、黑白、分辨率设置在300以上。如果是书或杂志,可先把订书针拆开,按顺序逐页平整放在扫描仪上进行扫描。清晰美观的图片,有利于后期编辑与识别。文档扫描成多张图片时,请按顺序进行编号。截屏方式非常多:(1)使用自带截图工具。从Windo

4、wsVista到Windows7,系统已经有自带截图工具。启动windowsVista/7后,依次单击开始菜单,所有程序/附件/截图工具,即可启动截图工具。页脚(2)按【printscreen】键。按下键盘右上方的【printscreen】键,打开画图工具,在系统自带的画图工具里面按ctrl+v就可以了。(3)使用QQ自带截图工具截屏。运行QQ,按ctrl+Alt+A组合键即可截图。您可以改变截图的大小,甚至可以在上面涂改,通过右键粘贴到任何图形软件中。(4)使用360浏览器截屏。打开360浏览器,在浏览器的右上角有个截图的小图标,点击它你会看到选项菜单:您可

5、以直接选取截图方式,也可以用ctrl+shift+c快捷键来截图,按住鼠标左键划出一块自己想要截取的区域,选定将要截取的区域后,点击右下角的保存键,在弹出的窗口中选择路径对截图命名并进保存。(5)使用专业截图工具如HyperSnap-DX、Snagit、Winsnap等。页脚3 把扫描或截屏的图片文件制成PDF文档  把图片文件转换成PDF文档比较简单的方法是使用ImageToPDF软件。  (1)把ImageToPDF软件文件夹复制到硬盘任意目录,点击“ImageToPDF”图标启动主程序。  (2)点击主界面中的“设置”进行软件的相关设置。在设置对话框的“

6、输出设置”选项卡中,选择第一种输出方式,使用多个图像文件生成一个PDF文件,其它使用默认状态。页脚  (3)在设置对话框的“图像处理”选项卡中,选择jpeg。注意:最底下的压缩质量这项,数值设置太大,生成的PDF体积就最大,当然也最清楚,反之体积就越小,可以通过细调获得最好的效果。页脚  (4)在设置对话框的“页设置”选项卡中,选择A4纸。如果图片是扫描的本就包括了页边距,故在此不需再设置页边距。此外,像PDF水印、加密、信息等其它项,因制作PDF的目的是进行文本识别,均使用默认值。各项设置完成后,点击“确认”,保存设置。(5)返回主界面,点击“文件”->“添

7、加文件”,找到扫描或截屏好并且已经编好号的图片,选定全部图片后打开,打开后您还可以在右边调整顺序。页脚  (6)点击“生成PDF文件”。在存放图片的文件夹里就可以看到已经转换生成的PDF文件。如果对生成的文件质量不满意,可以通过调整设置里的“图像处理”里的参数来更改文件。4 对PDF文件进行识别  根据生成PDF的源文档不同,可选择以下其中一种方式,对文档进行复制或识别。页脚  方法一:文件另存法运行CAJViewer,打开学术文献文件,在工具栏中选择“文件”→“另存为”,在保存类型中选择“文本文件(*.txt)”,整篇文档即迅速实现了格式转换。提示:此法仅保

8、留了原文档中文本内容,除此之外的所有内

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。