分词词典的构造与实现

分词词典的构造与实现

ID:36650485

大小:381.50 KB

页数:22页

时间:2019-05-13

分词词典的构造与实现_第1页
分词词典的构造与实现_第2页
分词词典的构造与实现_第3页
分词词典的构造与实现_第4页
分词词典的构造与实现_第5页
资源描述:

《分词词典的构造与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分词词典的构造与实现摘要分词词典的构造主要考虑分词词典的数据结构与查询算法的时空消耗问题。分词词典是汉语自动分词系统的一个基本组成部分[1]。自动分词系统所需要的各类信息(知识)都要从分词词典中获取,分词词典的查询速度直接影响到分词系统的速度。在机器翻译系统中,词典也占据极其重要的地位。机器翻译的各个过程,从自动分词、语法分析、语义分析到译语生成等均需要频繁地访问词典。词典结构及词条中所包含的信息量直接影响整个机器翻译系统的效率。词典的组织既要考虑到汉语分词,又要照顾到分析与生成。既要考虑节省空间,又

2、要照顾系统的运行速度。因此,词典的设计对机器翻译系统至关重要,越来越受到人们的重视。一方面,现实应用(如因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转换系统的前处理等)均对分词速度提出了迫切要求,因此建立高效快速的分词词典机制势在必行。另一方面,在词典规模不大的时候,各种词典查询算法对汉语词法分析的效率整体影响并不大。不过当词典规模很大时(几十万到上百万数量级),词典查询的时空开销会变得很严重,此时,好的词典算法就能大大降低查询成本,因此就需要详细设计一个好的词典查询算法才能解决

3、出现的如:延迟,内存不足等应用问题。本文阐述一种面向机器翻译系统的分词词典的构造于实现。通过对已有词典的查询算法的研究,深入分析了现存各种算法的优缺点。根据理论上优秀的trie结构搜索树方法的研究,实现了一个快速的分词词典即:Double-Array双数组结构词典。为了便于比较,我们将该算法和另一个基于trie结构的查询算法即:PAT树结构的词典算法进行了比较,详尽的分析了该算法的实现机理和实现方法。从试验当中证明了该算法的优越性。最终的试验结果表明,它的查询速度是PATtree结构的三倍,并且空间占

4、用率较低,能提供更快的检索速度,可以满足更高的现实要求。本文的研究成果可以应用到自动分词,在线翻译,信息检索,网络搜索引擎等自然语言处理系统中和现实应用系统中去,可以满足更大规模的语料处理,提高现有的各种系统的性能。关键词:分词词典trie双数组PAT词典算法Double-ArrayConstructionandRealizationonDictionaryMechanismforChineseWordSegmentationAbstract-22-目录前言目录自然语言处理的基本要求自然语言处理的概念

5、自然语言处理当中分词的重要性自然语言处理当中所要求的分词词典具有的功能现在有的分词方法,性能。对各种分词方法的考量性能分析Double-Array结构的词典性能词典的制作方法性能分析展望参考文献,附录第一章引言1.1课题的提出本论文属于自然语言处理的范畴。所谓自然语言处理(NLP,NaturalLanguageProcessing)就是用机器处理人类语言的理论和技术。那么什么是自然语言呢?我们在这里给出了由《新华词典》给出的定义:就是“以语音为物质外壳,由词汇和语法两部分组成的符号系统。”在这里我们可

6、以看到,词汇和语法是构成自然语言的主要两个基本要素,本文就是针对其中的一个基本要素“词汇”做的一些研究工作,通过对它的分析研究,才能进一步提高了对自然语言处理的认识。我们知道,分词词典是不同于电子词典的,分词词典不包括电子词典当中的一些基本的汉字,它的主要作用是用来将语句切分成为一个一个的语素(词),用来表达一定的意义,并获得该词的一些附加信息,如词性、特殊用法、句子中所起的作用等等于句子构成相关的信息。而电子词典则不同,它不是用来在句子当中切分语素的,而是查询是否存在该词或该字,从而获取该字词的意义

7、的一种软件工具,它与分词词典的作用明显不同。自动分词是中文信息处理诸多应用系统的一个不可或缺的模块。它是自然语言处理的重要组成部分,它的质量的好坏直接影响到下一步的语法分析、句法分析、组块分析等,因此,构造一个好的分词词典是实现高质量自然语言处理应用系统的关键部分。好的分词词典可以简化处理过程中出现的复杂问题,如兼类词问题、歧义问题和未登陆词识别等问题,对于译文质量的提高大有帮助。实验室现有的词典是基于分块索引的查询策略,各个块内部按照大小顺序排序,通过索引和二分法进行查询,该方法的索引结构简单,但它

8、的查询策略是基于字符串的比较,因而词典的查询速度提高的缓慢。为了提高对现有翻译系统的译文质量的提高,改进性能,提高现有的查询速度,改变查询词的附加信息结构,便于分词实验研究,-22-我们制作了这一个基于Double-Array双数组结构的查询词典,并将该词典应用到实现中去,来改变以往的查询策略,提高性能。1.2分词词典的作用众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子Iam

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。