维吾尔语单词和句子校对系统设计

维吾尔语单词和句子校对系统设计

ID:28599234

大小:531.50 KB

页数:25页

时间:2018-12-11

维吾尔语单词和句子校对系统设计_第1页
维吾尔语单词和句子校对系统设计_第2页
维吾尔语单词和句子校对系统设计_第3页
维吾尔语单词和句子校对系统设计_第4页
维吾尔语单词和句子校对系统设计_第5页
资源描述:

《维吾尔语单词和句子校对系统设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、-目录摘要2一、绪论2二、设计环境与总体设想32.1维吾尔语单词和句子特点32.2民文处理研究背景32.3维吾尔文校对技术的发展42.4设计环境42.5总体设想52.6内部安排6三、词库的设计与实现73.1拼写词库的建立73.2拼写词库的代码实现73.3一对一词库的建立103.4一对一词库的代码实现103.5词库的管理12四、维吾尔语文本中的常见错误分析144.1键盘录入导致的维吾尔语文本错误分析144.3单词错误的发现154.4自动纠错的研究154.5校对中对错词的候选词选取算法17五、校对系统一览195.1校对部分一览1

2、95.2自动拼写检查195.3自动纠错215.4实时拼写检查及纠错22六、总结24结束语24参考文献25摘要.---错词发现和候选词选取是文本分析中比较重要的环节。本文结合维吾尔文的语音学和词法特点,分析了文本中的常见错误类型和解决方法,利用最小编辑距离(minimumeditdistance)算法实现了维吾尔文本分析中的查错和纠错功能。关键词:维语尔语,词法分析,纠错,最小编辑距离ABSTRACTErrordetectionandrankingareveryimportantpartsoflanguageanalyzing

3、.Inthispaper,weintegratephoneticandlexicalfeaturesofUighur,analyzeerrortypesandsolvingmethods,improvedtheerrordetectingandcorrectingability.Whenusingdifferenterrordetectingandcorrectingmethods,wemainlyusetheminimumeditdistancealgorithm.Keywords:Uighur,LexicalAnalys

4、is,correcting,minimumeditdistance一、绪论目前,维吾尔语文字校对的研究还处在摸索阶段。维吾尔语文字校对是自然语言处理的主要应用领域之一。随着办公自动化系统的普及和电子出版系统的广泛应用,越来越多的人通过电脑和文字打交道,无论是出版行业还是普通办公室,工作效率及效益都大大提高了。但有一个不可忽视的问题是校对工作还停留在传统的人工阶段,可以说校对工作成了瓶颈效应,阻碍了整个办公自动化事业的飞速发展。在国外,各种涉及西文处理的应用软件中,都配有拼写和语法检查模块,而维吾尔文软件发展近十年,一直没有解

5、决这一难题。文本校对使用的是标准的词库,标准词库正是我们在校对中所需要那种客观的、规范的方法,这是排除词语认知上的错误以及熟视无睹的错误的唯一方法。传统的校对系统中,用户输入的词与事先制作好的词库进行比较来判断用户输入词的正误并将错误的信息显示给用户。对错误的词进行自动修正或提供正确的候选词。在制作词库的时候,人们将一个个词条系统的收集成库,并以此为依据进行校对。在这些算法中语言特有的现象被忽略,而独立于词法、语音法的成分被系统的收集。如果我们仔细观察维吾尔语的词法、语音法特征,会发现一些固有的规律,并得到新的校对思路。词是

6、最小的能够独立活动的有意义的语言成分[1].在维吾尔语中,词是由词根加词缀构成,词与词之间存在分隔符,词本身也有明显的形态标记。如果采用自然语言理解中的有关知识如:语音规律分析和词法分析技术,对智能化功能方面会带来很大进步。拼写错误的检查和更正是现代词语处理中的一个组成部分。同样的算法对于光学字符识别(opticalcharacterrecognition,OCR)和联机手写提识别(on-linehandwritingrecognition)也是很重要的,尽管个别字母还不能保证被精确的识别出来。据估计,人们键入文本的拼写错误

7、大约在0.05%(对于仔细编辑的新闻文本)到38%(对电话薄查询等拼写困难的应用场合)之间变动(Kukich,1992)[2]人的打字文本中出现的拼写错误,在数量和性质方面,不同于在别的设备中引起的拼写错误。Grudin(1983)发现.---,在人的打字文本中的拼写错误率在1%--3%(包括非词错误和真词错误)。这个错误率对于经过复制编辑后的文本将会明显的下降。手写体文本的拼写错误率与此相比,根据Kukich(1992)的报告,词错误率在1.5%--2.5%。[2]由于维吾尔文文本自动校对理论和技术尚不太成熟,自动纠错研究

8、的论述还不多见。我们采用某中方法对长词进行纠错处理时,应该充分利用出错字符串的特征。IBM中国研究中心提出一种替换字表结合主词典,通过加字和换字对侦测出来的错误字符串提供修改建议的纠错算法,但该算法的纠错建议局限于替换字表,没有考虑。上下文启发信息,主要考虑对错字这种错误类型进行纠错,对漏

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。