印刷体汉字的统计特性及分析

印刷体汉字的统计特性及分析

ID:41864217

大小:730.51 KB

页数:44页

时间:2019-09-03

印刷体汉字的统计特性及分析_第1页
印刷体汉字的统计特性及分析_第2页
印刷体汉字的统计特性及分析_第3页
印刷体汉字的统计特性及分析_第4页
印刷体汉字的统计特性及分析_第5页
资源描述:

《印刷体汉字的统计特性及分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第9讲印刷体汉字的统计特性及分析要点:统计特性分析的意义常用统计特性的分析课堂练习统计特性分析的意义对印刷体汉字的结构特性做统计分析,不仅对汉字研究和汉字编码很有意义,而且对印刷体汉字识别的特征选择和分类器的设计也有很大意义。返回常用统计特性的分析周边特征分析游程统计特性分析笔划特性分析字根统计特性分析返回周边特征分析汉字的32×32点阵表示汉字的16×16点阵表示空程长度及计算举例周边空程长度熵周边空程长度熵的特点返回汉字的32×32点阵表示每个汉字用32×32点阵表示。返回汉字的16×16点阵表示每个汉字用16×16点阵表示。返回空程长度把汉字表示为N×N点

2、阵,分别从左、右、上、下四个周边顺次扫描汉字点阵。在第n次扫描线上第一次遇到黑像素前白像素的个数,称为相应的周边空程长度。空程长度用l表示用分别表示四个方向上空程长度l的概率分布。返回空程长度的计算举例左边右边上边下边返回左边空程长度2,3,3,6,0,1,1,3,3,2,0,2,2,2,2,16返回右边空程长度13,12,2,3,3,4,4,4,5,5,6,5,3,1,2,16返回上边空程长度4,5,0,1,5,2,2,2,2,2,2,2,2,2,13,16返回下边空程长度5,5,1,7,9,2,2,3,4,5,4,3,2,1,2,16返回周边空程长度熵左周边

3、熵:右周边熵:上周边熵:下周边熵:返回32×32点阵左周边熵分布图返回32×32点阵右周边熵分布图返回32×32点阵上周边熵分布图返回32×32点阵下周边熵分布图返回周边空程长度熵的特点周边空程长度熵是四边结构特征所包含信息量的度量,其最大值为:统计结果表明:返回周边熵较高,一般均大于2角部位置区域的熵值最大说明提取周边特征和角部特征具有合理性游程统计特性分析游程的定义游程统计分析的意义不同角度的平均黑游程长度黑游程的分布特点返回游程的定义游程是指在同一方向上,宽度为一个像素的扫描线条的长度。由笔划像素组成的黑游程长度记为BRL由背景像素组成的白游程长度记WRL

4、返回游程统计分析的意义可以反映汉字内部笔划结构的分布情况对汉字特征选择和汉字压缩编码都有一定参考意义返回不同角度的平均黑游程长度从八个离散方向对40×40点阵的汉字进行游程分布统计,不同角度的平均黑游程长度列于下表中:返回离散方向00900450135070011002001600平均黑游程4.1594.4702.6672.9393.4453.5472.2613.348黑游程的分布特点横竖方向的黑游程比其余方向长从水平方向看,黑游程长度(BRL)大多是1-5个像素,白游程长度(WRL)大多是1-15个像素。游程的概率随长度迅速下降。返回笔划特性分析笔划特性统计的

5、方法不同笔划的出现频率不同的笔划总数直方图不同的笔划长度直方图返回笔划特性统计的方法采用已有的图像处理算法,对48×48点阵的国际两级汉字(6763个)自动提取横、竖、撇、捺,统计整个两级汉字的笔划分布情况一级汉字3755个返回不同笔划的出现频率每种笔划在汉字中出现的频率是不同的。据统计,横为28%,竖为18%,撇为15%,点、捺为13%,折为7%,其他为19%返回不同的笔划总数直方图用分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。返回笔划总数直方图横笔划总数直方图竖笔划总数直方图撇笔划总数直方图捺笔划总数直方图笔划总数直方图返回横笔

6、划总数直方图返回竖笔划总数直方图返回撇笔划总数直方图返回捺笔划总数直方图返回不同的笔划长度直方图用分别表示一个字的横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度。返回横笔划长度直方图竖笔划长度直方图撇笔划长度直方图捺笔划长度直方图横笔划长度直方图返回竖笔划长度直方图返回撇笔划长度直方图返回捺笔划长度直方图返回字根统计特性分析提取字根的困难性统计字根与传统字根的区别几种字根的统计结果返回提取字根的困难性汉字有很多字根,这些字根繁简不一,用图像处理技术自动提取这些字根还不能达到实用水平返回统计字根与传统字根的区别在进行统计分析时,所用的字根与传统意义上的字根有所不同

7、例如,“俺”和“缚”中都不包含传统意义上的字根“田”,但是它们都含有图形“田”。使用程序寻找传统意义上的字根更困难,因此统计时认为“俺”和“缚”都含有字根“田”返回几种字根的统计结果几种字根在6763个汉字中出现的频率见下表:返回课堂练习计算右边字符矩阵的四周边空程长度计算结果返回计算结果返回100421000121111111101000001910001000

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。