中文分词交集型歧义处理的研究

中文分词交集型歧义处理的研究

ID:34698766

大小:4.69 MB

页数:54页

时间:2019-03-09

中文分词交集型歧义处理的研究_第1页
中文分词交集型歧义处理的研究_第2页
中文分词交集型歧义处理的研究_第3页
中文分词交集型歧义处理的研究_第4页
中文分词交集型歧义处理的研究_第5页
资源描述:

《中文分词交集型歧义处理的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确地切分成词串,即对词边界的自动识别,是中文信息处理中迫切需要解决的问题。对中文分词的研究很有意义,本文研究的是中文分词中词典机制和交集型歧义的发现和消除。主要研究工作包括以下几个方面:(1)系统地阐述了中文分词研究背景、意义以及发展现状,并对一些有特色的分词系统进行简单的介绍。(2)对中文分词中常用的算法进行详细的介绍并举实例阐述其算法思想及运行过程。对在中文分词过程中所遇到的困难进行了

2、概括并给出了评价中文分词的标准。.(3)分词速度和精度是衡量分词系统的核心指标。通过对几种常见的词典结构的研究,发现各自词典结构的优缺点,在此基础上处于提高分词速度、提高建构词典的空间效率、查找过程的时间效率以及汉语词组的统计规律的考虑,本文选择双字Hash索引的词典机制,将前两字逐个建立Hash索引,并将剩余字串有序排列组成词典的正文。(4)本文主要对交集型歧义进行处理。首先介绍歧义产生的根源以及歧义的分类。详细介绍了交集型歧义的发现算法和消解算法。本文发现了一种能识别交集型歧义的方法,即在二元切分词图中,如果位于对称轴上的原子与它相连的右边和上面

3、位置上同时不为空,表明这里出现了交集型歧义。本文采用基于统计的方法来对交集型歧义进行消解,先详细的介绍了几种基于统计的常见方法,并分析它们的优缺点,最后采用双字耦合度和t一测试差的线性叠加,再对各个歧义位置进行计算CDT(CoupleandDifferenceofT-test)并对是否进行切分做出选择。实验结果表明,基于词典和统计相结合的分词算法对应于传统的分词算法在分词速度和分词精度上都有显著的提高。然而该算法不能处理组合型歧义和未登录词,有待进一步研究。关键词:中文分词,Hash索引,分词算法,CDT中文分词歧义处理研究AbstractWordi

4、sthesmallestlanguageunittoshowsemanticindependently,whichisthefoundationofdealingwithvariouskindsofnaturallanguagetexts.RisveryspecialtobeChinesewriting,asithasnotanyclearsigntoseparatethewordfromword,butacontinuouscharacterstring.Howtocutthecharacterstringintowordstring,whichm

5、eanstheautomaticidentificationofwordboundary,isakeyproblemthatChineseinformationprocessingneedtosolveinurgent.111eresearchforChinesewordsegmentationismeaningful,thispaperstudiesthedictionarynlechanismandhowtodiscoverandeliminatetheintersectionambiguityinChinesewordsegmentation,

6、nlemainresearchworkincludesthefollowingaspects:(1)Elaboratetheresearchbackground,significanceanddevelopmentstatusforChinesewordsegmentation,giveabriefinlroducetosomedistinctivesegmentationsystem.(2)G-ivedescribeindetailstothosealgorithmwhichareusedinChinesewordsegmentation,give

7、someinstancestodescribethethoughtandoperation.SummarizeallkindsofdifficultiesencounteredintheprocessandgivetheevaluationstandardforChinesewordsegmentation.(3)Thecoreindicatorofwordsegmentationisspeedandaccuracy.Throughtheresearchofseveralcommondictionariesstructure,fredtheadvan

8、tagesanddisadvantagesofeachdictionarystructure,conside

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。