脱机手写中文识别中粘连文本行切分与提取

脱机手写中文识别中粘连文本行切分与提取

ID:21226434

大小:25.50 KB

页数:3页

时间:2018-10-20

脱机手写中文识别中粘连文本行切分与提取_第1页
脱机手写中文识别中粘连文本行切分与提取_第2页
脱机手写中文识别中粘连文本行切分与提取_第3页
资源描述:

《脱机手写中文识别中粘连文本行切分与提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、脱机手写中文识别中粘连文本行的切分与提取【英文题名】SegmentationofTextLinesinOff-LineChineseHandwrittenCharacterRecognition【作者中文名】周宇;【导师】张田文;【学位授予单位】哈尔滨工业大学;【学科专业名称】计算机科学与技术【学位年度】2007【论文级别】硕士【基金】黑龙江省自然科学基金;【关键词】手写汉字识别;文本行切分;评价函数;【英文关键词】handwrittenChineserecognition;segmentationoftextlines;evaluationfu

2、nction;【中文摘要】汉字作为中华民族上千年文化的结晶,在社会发展中一直起着重大的作用,实现手写文档的电子化具有非常重要的意义。文字识别是指利用计算机自动辨别在纸或其他介质上的文字的过程。文字识别分为脱机文字识别和联机文字识别两种,主要研究脱机中文手写文字识别。中文文字识别与英文文字识别有很大的区别,并且中文文字识别的发展滞后于英文文字识别。从英文文字识别的发展历程来看,中文手写识别应该从现有的单字识别扩展到语句级识别,其中需要解决许多重要问题。现有文本库均为单字库,没有支持非单字识别的文本库,因此建立了中文文本库HIT-MW。此文本库是以文

3、本页为基本单位的,识别之前需要将其切分为文本行,这正是本文完成的主要工作。首先通过直接水平全局投影、小角度纠斜、再次水平全局投影、局部投影四步以获得粘连文本块数据集。之后对粘连文本块数据集进行了全面详细的分析,并按照难易程度将其分为四类子数据集:两行文字易切分文本块、两行文字难切分文本块、两行文字粘连文本块和三行或更多行文字文本块,对各类数据集采取不同的策略。然后对文本块进行背景骨架化。对能够直接获得候选切分路径的数据集,研究了判别最优切分路径的评价函数;对不能获...【英文摘要】Chinesecharacteristhecrystallizat

4、ionofChinesenationforthousandsofyearsandhasbeenplayingaveryimportantroleinthedevelopmentofoursociety.Itisofgreatimportancetodigitalizethehandwrittendocuments.OpticalCharacterRecognition(OCR)isafastandautomaticinputforcharacter.Characterrecognitioncontainson-lineandoff-linecha

5、racterrecognition,andwefocusontheoff-lineChinesecharacterrecognition.ChinesecharacterrecognitionisverydifferentfromEnglishcharacte...摘要4-5Abstract5第1章绪论8-171.1研究计算机识别文字的目的及意义8-91.2汉字识别的问题与困难9-111.2.1汉字的特点与识别难点9-111.2.2手写体汉字的特点与识别难点111.3汉字识别研究的发展历程11-131.4汉字识别技术研究现状及发展趋势13-141

6、.5论文背景及研究的主要内容及意义14-161.5.1论文背景151.5.2论文研究的主要内容151.5.3论文研究的主要意义15-161.6本章小结16-17第2章粘连汉字切分方法的研究17-222.1引言172.2切分算法17-192.2.1基于结构特征的算法17-182.2.2滴水算法182.2.3基于细化的算法182.2.4储水池算法18-192.2.5基元合并算法192.3切分路径评价方法19-202.3.1决策树19-202.3.2混合高斯概率函数202.3.3贝叶斯置信网络202.4本章小结20-22第3章文本行切分实验数据获得与分

7、析22-323.1引言22-233.2文本库HIT-MW简介23-253.2.1HIT-MW的收集目的23-253.3实验数据的获得25-293.3.1原始数据处理步骤26-283.3.2数据统计28-293.4实验数据分析29-313.4.1两行文字易切分文本块集29-303.4.2两行文字难切分文本块集303.4.3两行文字粘连文本块集30-313.4.4三行或更多行文字文本块集313.5本章小结31-32第4章粘连文本行切分与提取32-424.1引言32-334.2主要研究内容简介334.3文本块背景骨架化33-354.4寻找候选切分路径3

8、5-374.5最优路径判定37-384.5.1对第三数据集的附加操作37-384.5.2对第四数据集的附加操作384.6文本块笔划细化及

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。