维吾尔文音节分解算法的设计与实现

维吾尔文音节分解算法的设计与实现

ID:32474148

大小:186.31 KB

页数:6页

时间:2019-02-06

维吾尔文音节分解算法的设计与实现_第1页
维吾尔文音节分解算法的设计与实现_第2页
维吾尔文音节分解算法的设计与实现_第3页
维吾尔文音节分解算法的设计与实现_第4页
维吾尔文音节分解算法的设计与实现_第5页
资源描述:

《维吾尔文音节分解算法的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、630一竺竺兰兰竺竺堡兰竺竺兰型一====;=——};=—;=======}———日_;—{———========——————;————————————~一参考文献1张磊。周明,黄昌宁.潘海华中文文本自动校对语言文字应用,2001,(1):19~262昊岩,李秀坤,刘挺,王开铸.中文文,t--自动校对系统的研充与赛现.哈尔滨工业大学学报,2001,33(1):60~643张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法.中文信息学报,2001,15(3):36~434于勐,姚天颇.一种混合的中文文本校对方法.中文信息学报,2001,12(2):31~355建华,王晓龙,等.多特征的

2、中文文本枝对算法的研究.计算机工程与科学,2001,23(3):93~966张仰森中文文本校对系统中纠错知识库的构适及纠错建议的产生算法.中文信息学报.2001,15(5):33~39作者简介阿里甫·库尔班,讲师,主要研究领域为多文种信息处理、数据库应用。吐尔根‘依布拉音,教授,主要研究领域为多文种信息处理、自然语言处理。阿布力米提,讲师,主要研究领域为多文种信息处理、计算语言学。维吾尔文音节分解算法的设计与实现①艾尼瓦尔·麦麦提1吐尔根·依布拉音1伊米提·艾则孜21,新疆大学信息科学与工程学院;2。新疆民族语言文字委员会摘要本文分析研究雄吾尔文音节构成规则,设计实现了维吾尔文音节计算机自

3、动分解算法及程序,在对失量生语料进行统计测试的基础上,得到了维吾尔文音节频率统计表及常用音节表。雏吾尔文自动分解算法及音节统计表对语音合成、自动校对、智能输入法和文字识别等众多领域有着很高的实用价值。关键词然语言处理雏吾尔文音节分解计算机算法引言维吾尔文是由32个字母组成的黏着型拼音文字。这32个字母组成音节,并由音节组成单词即维吾尔文词汇由音节组成,而每个音节由若干个字母组成。维吾尔文音节的构成虽然有一定的规律,随着外来词的增加和不断出现的新词,其规律变得复杂甚至不清楚。研究维吾尔文音节的组成规律、统计并量化维吾尔文音节在波形拼接的语音合成、语音识剐、文字识别、智能输人法、自动校对、维吾

4、尔文词汇学研究等方面有着很重要的意义。我们通过计算机算法及程序实现维吾尔文音节分解,在超过2000万字的电子文本(生语料)基础上进行测试,自动分解音节,得到了维吾尔文音节统计表及最常用的3000多个音节。该文章主要阐述维吾尔文音节分解算法及其实现过程。①本文得到自治区高新技术项目支持,缩号为140101第48分会场学术沙龙——以科学发展观推动科技的创新631一、维吾尔文音节的组成维吾尔文音节有32个字母,即由8个元音字母和24个辅音字母组成。现代维吾尔文中音节有6种基本形式,即A,AB,BA,BAB,ABB,BABB,也就是每个音节由一个元音字母和若干个辅音字母组成。但是外来词和很多新词都

5、与这些规则不符,有BBABB,BABBB,BAAB等复杂形式,使得音节分解变得非常复杂。特别是汉语借词(ZHUANG庄,HUANG黄,JIANG江等)有两个元音字母,完全不符合维吾尔文的音节组成规律,使准确分解音节更难。传统的方法会把这些从汉语进入的音节分解为两个音节,而一个汉字又不能对应多个音节。所以到目前为止,维吾尔文音节的自动分解还是一个需要解决的问题。维吾尔文音节结构及例子如下表所示。表维吾尔文音节构成规则厦实例二、虚拟音节的生成我们研究的第一部分内容就是根据音节的组成规律生成在维吾尔语中所有可能出现的音节。根据8个元音和24个辅音的排列组合(permutationandcombi

6、nation)规律,我们生成所有可能出现的音节并得到惊人的数字。初步统计结果显示外来词中的BBABB形式虚拟音节就有24×24×8×24×24=2564208条。所有规则生成的音节超过500万个。我们把它称之为虚拟音节。在实际应用中,绝大部分的虚拟音节都是无效音节,最起码目前是这样。但所有虚拟音节都可能是有效音节的候选,如SARS是一个单音节词汇,但是在SAR$这个名词在维吾尔语中规范化之前SARS是无效音节。虽然实际使用中,以上大部分音节不会出现,但从语法角度解释,也有出现的可能性。所以500多万个虚拟音节不能排除任何一个在不久的将来被使用的可能性。三、音节分解算法的设计与实现虚拟音节中

7、到底有多少目前正在被使用?使用的频率多少?这是本项研究的第二部分内容。长期以来,由于维吾尔文音节缺乏统一标准,从未认真地进行过规范、统计和量化。这种状况给维吾尔信息处理中音节切分处理、语音识别与合成和文字识别的后处理等带来了很多困难。现代维吾尔文音节处理是此研究的核心部分,故本算法设计与实现难度较大,工作任务十分繁重。因目前使用的多种维吾尔文排版印刷和文字处理软件的编码不统一,存储电子文本格式也不同,所以音节处理模块中要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。