脱机手写体汉字分割方法的研究开题报告

脱机手写体汉字分割方法的研究开题报告

ID:10491582

大小:145.00 KB

页数:5页

时间:2018-07-07

脱机手写体汉字分割方法的研究开题报告_第1页
脱机手写体汉字分割方法的研究开题报告_第2页
脱机手写体汉字分割方法的研究开题报告_第3页
脱机手写体汉字分割方法的研究开题报告_第4页
脱机手写体汉字分割方法的研究开题报告_第5页
资源描述:

《脱机手写体汉字分割方法的研究开题报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、系毕业设计(论文)开题报告学生姓名指导教师职称专业班级2007级班毕业设计(论文)题目脱机手写体汉字分割方法的研究题目来源自拟是否校外题目公司名称(地址)校外指导教师姓名(职称)包括选题依据、毕业设计(论文)所做工作的主要内容、可行性、所采用的技术手段、技术路线、预期成果等。开题报告应简明扼要,不超过2000字,以附页的形式附在后面。指导教师意见签字年月日教研室主任意见签字年月日系毕业(设计)论文指导委员会意见主任签字年月日大连民族学院教务处制脱机手写体汉字分割方法的研究一、本研究课题的目的及意义;汉字识别,是一种利用一定的光电设备(如:光学扫描仪、数

2、码相机、数码摄像机等)将记录在介质(如:纸等)上的汉字转化成图像输入到计算机中并对其进行自动识别,是智能计算机接口的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段。脱机手写体汉字识别,是指通过扫描等技术以及自动认字的方法,将书写在纸或者其它介质上的汉字方便、快速地输入计算机,它包括:特定人非限定性脱机手写体汉字识别、非特定人限定性脱机手写体汉字识别和非特定人随意性脱机手写体汉字识别三种。二、脱机手写体汉字识别的一般方法及主要特点:一个典型的脱机手写体汉字识别系统由前端数字化输入装置、预处理系统、识别系统和后处理系统四大部分组成。进行脱机手写体

3、汉字识别时,首先用输入装置将写在介质上的原始文本通过光电扫描仪等输入设备转换成二维图像信号(可以是灰度图像或二值图像):然后进行行、字切分,将整页版面的原始图像先按书写行分割开后从每行中切分出单个汉字图像,送入单字识别部分进行处理。单字识别依次包括预处理、特征提取、匹配识别。其中,预处理通常有大小归一化、二值化、平滑、细化等:特征提取是从预处理后的图像中按一定的方式获取代表汉字特征的一组向量;最后,将汉字特征向量与模板特征向量按一定的原则进行匹配判决,以此确定待识汉字的类别。单字识别完成后对识别结果进行后处理,即对单字识别的结果利用语言知识等上下文先验

4、信息进行确认或纠错。其中,特征提取是整个系统中最为重要的环节,稳定的、具有代表性的特征提取和良好性能的分类器的设计是整个识别系统的核心,直接决定了识别系统的性能。而相似字识别的正确与否对整个识别系统的准确性和可用性都有着极大的影响,相似字的准确分类是汉字识别中提高识别率的一个关键问题。另一方面,脱机手写体汉字识别在具有广阔应用前景的同时,也有着与印刷体汉字识别明显不同的特点,概括起来主要有如下几点:(1)手写体汉字风格众多,随意性较大,几乎无规律可循。特别是对于脱机手写体汉字,不同的书写风格导致的汉字的变形差别很大,即使是同一个人使用不同的书写笔或纸张

5、等写出来的笔划也可能不一样。具体表现在:1)基本笔划变化,包括横不平、竖不直、直笔变弯、折笔的拐角变成圆弧等;2)笔划模糊,不规范,连笔部分断开了,不是连笔的地方却相连;3)笔划与笔划之间的相对位置发生了变化;4)笔划的倾斜角、笔划的长短、相对大小等发生变化。(2)汉字集会中相似字较多,很多汉字的差别仅为一点或一个笔划,例如“大、犬、太”、“入、入”、“±、士”、“乌、鸟”、“己、已、已”等,并且由于手写变形的问题较普遍,所以手写体中相似字的区分比印刷体要困难得多。(3)汉字字形结构复杂,笔划最多的汉字有36划,汉字的平均笔划则为11划。由于笔划多,使

6、得较多汉字的结构十分复杂。特别是由于不同的人有不同的书写习惯,导致复杂的汉字结构难于识别。同时,脱机平写体汉字识别处理的仅是一些经过各种光电仪器扫描得到的二维汉字点阵图像,不含任何实时信息。这是脱机手写体汉字的本质特征之一,也是脱机手写体汉字识别与联机手写体汉字识别的本质区别之一。三、本课题的主要要求与内容:1.汉字字库收集2.汉字文档数字化处理3.汉字文档去噪4.汉字文档倾斜校正5.文档行分割6.汉字分割算法初步7.汉字分割算法优化8.确定最终分割结果9.汉字单独字符提取10.单独汉字图像归一化11.汉字分割法软件功能实现12.撰写设计说明书四、本题

7、目相关设计原理、理论方法:脱机手写体汉字识别的基本过程如下:书写在纸张上的手写体文稿通过前端数字化输入装置(如扫描仪)转化为一个二维点阵图像,由预处理阶段对所得图像作相应处理,识别阶段首先提取汉字图像的特征,然后根据特征对待识别汉字进行分类判别,后处理阶段利用相关信息和语言知识,对识别的文字进行校正或对拒识文字进行推测,以得到最终的识别结果。1.统计决策方法一般来说,可以从输入的文字中,测得N个特征,这N个特征中,每个集合成一个向量,称为特征向量。所谓分类问题就是将特征空间中每个可能的向量制定到一个模式类中去。2.定点采样方法用(i,j)表示文字点阵的

8、坐标,用f(i,j)表示该点的灰度值,如果字的笔道通过f(i,j)点则f(i,j)=1;如果字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。