印刷体汉字的分类和识别.ppt

印刷体汉字的分类和识别.ppt

ID:52488359

大小:391.55 KB

页数:47页

时间:2020-04-08

印刷体汉字的分类和识别.ppt_第1页
印刷体汉字的分类和识别.ppt_第2页
印刷体汉字的分类和识别.ppt_第3页
印刷体汉字的分类和识别.ppt_第4页
印刷体汉字的分类和识别.ppt_第5页
资源描述:

《印刷体汉字的分类和识别.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8讲印刷体汉字 的分类和识别要点:印刷体汉字的分类印刷体汉字的识别课堂练习课后练习印刷体汉字的分类印刷体汉字分类的必要性印刷体汉字分类的基本要求印刷体汉字分类举例印刷体汉字分类的方法返回印刷体汉字分类的必要性由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。返回印刷体汉字分类的基本要求粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。粗分类的速度要快。这要求分类的算法简单,

2、同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。返回印刷体汉字分类举例在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回印刷体汉字分类的方法采用复合特征的分类多级分类返回采用复合特征的分类选用N种具有互补特征作为类特征在学习阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。分类时,根据待分字的特征进行N次分类,组合分类结果求得子类。返回多级分类学习阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复

3、上述多级分类过程。树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。返回印刷体汉字的识别在选取特征之后,需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类:(1)基于距离的识别准则(2)基于相似度的识别准则返回基于距离的识别准则距离的数学定义常用距离距离计算举例:例1,例2返回距离的数学定义距离是满足如下三条公理的二元函数:(1)非负性:d(x,y)0,当且仅当y=x时,等号成立;(2)对称性:d(x,y)=d(y,x);(3)三角不等式:d(x,y)d(x,

4、z)+d(z,y)返回常用距离曼哈顿街区距离,欧氏距离切比雪夫(Chebychev)距离s阶闵可夫斯基(Minkowski)距离马氏(Mahalanobis)距离,Camberra距离编辑距离和演化距离返回曼哈顿街区距离又称为分量绝对值求和距离。返回欧氏距离返回切比雪夫(Chebychev)距离又称为分量绝对值最大距离。返回s阶闵可夫斯基距离(Minkowski)距离。返回马氏(Mahalanobis)距离是一个正定矩阵。返回Camberra距离返回编辑距离和演化距离通过“替换”、“删除”和“插入”三种操作,把字符串a=a1a2…am变成b=b

5、1b2…bn所需的最小操作次数,称为a和b的编辑距离。由于“替换”、“删除”和“插入”可以解释为基因序列的三种演化操作,因此编辑距离又称为演化距离。返回编辑距离Ed的计算方法a=a1a2…am,b=b1b2…bn返回xi=a1a2…ai,yj=b1b2…bj“-”表示删除或插入,Ed(a,b)=Ed(xm,yn)距离计算举例计算下面“汉”和“字”点阵之间的几种距离距离计算结果曼哈顿街区距离=70欧氏距离=8.3666切比雪夫距离=1s阶闵可夫斯基距离=Camberra距离=70返回距离计算举例计算下面序列之间的编辑距离:ab和acacb和aba

6、c和abcabcc和cbaa距离计算结果ab和ac的编辑距离=1acb和ab的编辑距离=1ac和abc的编辑距离=1abcc和cbaa的编辑距离=3返回基于相似度的识别准则相似度的数学定义常用相似度相似度计算举例返回相似度的数学定义相似度是满足如下三个条件的二元函数:1.非负性:2.自大性:3.对称性:返回常用相似度距离相似度,角度相似系数相关系数,指数相似系数非负特征相似度,二值特征相似度返回距离相似度f是单调减函数。返回角度相似系数返回相关系数返回指数相似系数返回非负特征相似度返回二值特征相似度二值特征向量的分量只能取值0或1。二值特征分量有

7、四种基本匹配二值特征向量有四种匹配特征数二值特征向量有五种常用相似度返回四种基本匹配设二值特征向量x和y的第i个分量为xi和yi,如果xi=1且yi=1,则称xi和yi(1-1)匹配;如果xi=1且yi=0,则称xi和yi(1-0)匹配;如果xi=0且yi=1,则称xi和yi(0-1)匹配;如果xi=0且yi=0,则称xi和yi(0-0)匹配;返回四种匹配特征数(1-1)匹配特征数:(0-1)匹配特征数:(1-0)匹配特征数:(0-0)匹配特征数:所选特征总数n=a+b+c+e返回五种常用相似度Tanimoto系数Rao系数简单匹配系数Dice系

8、数Kulzinsky系数返回Tanimoto系数表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。返回Rao系数表示

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。