文本识别一网打尽

ID：33540663

大小：610.00 KB

页数：9页

时间：2019-02-27

资源描述：

《文本识别一网打尽》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、文本识别一网打尽郭萍(仙桃职业学院计科院　湖北仙桃　433000)踏破铁鞋无觅处，得来全不费工夫。当我们好不容易找到一篇文章，就因为是纸质的，无法在电脑上操作，必须重新手工录入；就因为是PDF或其他电子格式，有的甚至进行了加密，无法编辑和排版，只能望文兴叹。文档最终只有转换成word和txt文档,才能得以随心所欲。对于文档转换，笔者在长期的文字编辑过程中摸索出了一套行之有效的办法。不管是纸上、屏幕看到的，还是各种类型的电子文档，都能顺利转换成能够编辑的文本。总的流程是：将纸质书面材料扫描成图片文件或将屏幕文字截屏保存为图片；将图片文件制成PDF文档；使用CAJ

2、Viewer对PDF文件进行文本识别。其核心是运用CAJViewer内置的OCR文本识别功能实现文档格式转换。1　认识ImageToPDF和CAJViewerImageToPDF可以转换bmp、jpg、gif、tiff、png、psd、pcx、tga、wmf等图像文件到PDF文件格式。它支持多线程批处理，操作简单灵活，支持右键，支持将整个盘中的文件拖入转换；可以将众多图像文件合成一个PDF文件。下载地址为：http://www.newhua.com/softdown/41429_2.htmCAJViewer是中国知网专用的学术文献浏览软件，兼容多种文献格式，支

3、持PDF的浏览和集成OCR文本识别，可以轻松识别和复制各类电子文档，实现文档格式的转换，大大节省了文档录入编辑的时间。下载地址为：http://www.cnki.net/software/xzydq.htm2　纸质文档的扫描或屏幕文字的截取扫描生成文件格式一般有jpeg、bmp、tiff等。为了识别提高识别效果，请将格式设置成bmp、黑白、分辨率设置在300以上。如果是书或杂志，可先把订书针拆开，按顺序逐页平整放在扫描仪上进行扫描。清晰美观的图片，有利于后期编辑与识别。文档扫描成多张图片时，请按顺序进行编号。截屏方式非常多：(1)使用自带截图工具。从Windo

4、wsVista到Windows7，系统已经有自带截图工具。启动windowsVista/7后，依次单击开始菜单，所有程序/附件/截图工具，即可启动截图工具。页脚(2)按【printscreen】键。按下键盘右上方的【printscreen】键，打开画图工具，在系统自带的画图工具里面按ctrl+v就可以了。(3)使用QQ自带截图工具截屏。运行QQ，按ctrl+Alt+A组合键即可截图。您可以改变截图的大小，甚至可以在上面涂改，通过右键粘贴到任何图形软件中。(4)使用360浏览器截屏。打开360浏览器，在浏览器的右上角有个截图的小图标，点击它你会看到选项菜单：您可

5、以直接选取截图方式，也可以用ctrl+shift+c快捷键来截图，按住鼠标左键划出一块自己想要截取的区域，选定将要截取的区域后，点击右下角的保存键，在弹出的窗口中选择路径对截图命名并进保存。(5)使用专业截图工具如HyperSnap-DX、Snagit、Winsnap等。页脚3　把扫描或截屏的图片文件制成PDF文档　　把图片文件转换成PDF文档比较简单的方法是使用ImageToPDF软件。　　(1)把ImageToPDF软件文件夹复制到硬盘任意目录，点击“ImageToPDF”图标启动主程序。　　(2)点击主界面中的“设置”进行软件的相关设置。在设置对话框的“

6、输出设置”选项卡中，选择第一种输出方式，使用多个图像文件生成一个PDF文件，其它使用默认状态。页脚　　(3)在设置对话框的“图像处理”选项卡中，选择jpeg。注意：最底下的压缩质量这项，数值设置太大，生成的PDF体积就最大，当然也最清楚，反之体积就越小，可以通过细调获得最好的效果。页脚　　(4)在设置对话框的“页设置”选项卡中，选择A4纸。如果图片是扫描的本就包括了页边距，故在此不需再设置页边距。此外，像PDF水印、加密、信息等其它项，因制作PDF的目的是进行文本识别，均使用默认值。各项设置完成后，点击“确认”，保存设置。(5)返回主界面，点击“文件”->“添

7、加文件”，找到扫描或截屏好并且已经编好号的图片，选定全部图片后打开，打开后您还可以在右边调整顺序。页脚　　(6)点击“生成PDF文件”。在存放图片的文件夹里就可以看到已经转换生成的PDF文件。如果对生成的文件质量不满意，可以通过调整设置里的“图像处理”里的参数来更改文件。4　对PDF文件进行识别　　根据生成PDF的源文档不同，可选择以下其中一种方式，对文档进行复制或识别。页脚　　方法一：文件另存法运行CAJViewer，打开学术文献文件，在工具栏中选择“文件”→“另存为”，在保存类型中选择“文本文件(*.txt)”，整篇文档即迅速实现了格式转换。提示：此法仅保

8、留了原文档中文本内容，除此之外的所有内

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

文本识别一网打尽

文本识别一网打尽

相关文章

相关标签

文本识别 一网打尽

文本识别 一网打尽

相关文章

相关标签

文本识别一网打尽

文本识别一网打尽