(最新)基于双数组的分词词典研究与实现

(最新)基于双数组的分词词典研究与实现

ID:37540688

大小:1.48 MB

页数:58页

时间:2019-05-25

(最新)基于双数组的分词词典研究与实现_第1页
(最新)基于双数组的分词词典研究与实现_第2页
(最新)基于双数组的分词词典研究与实现_第3页
(最新)基于双数组的分词词典研究与实现_第4页
(最新)基于双数组的分词词典研究与实现_第5页
资源描述:

《(最新)基于双数组的分词词典研究与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大连理工大学硕士学位论文摘要分词词典是汉语自动分词系统的一个基本组成部分,词典的查询速度直接影响到分词系统的处理速度。在因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转换系统的前处理等,均对分词速度提出了更高要求,因此建立高效快速的分词词典具有显著的现实意义。目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等JL种方法,其中TRIE索引树和逐字二分机制查询效率较高。这儿种词典机制都是以排序的线性表来提高查询效率,数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点,针对分词中特定的查询条件,设计并实现了基于双数组的分词词典,

2、同时分析了基于双数组的分词词典的性能。本文将双数组方法与其它几种词典构造方法进行了对比分析。在双数组词典构造方法与PAT树方法的对比实验中,可以看出双数组方法的查询速度要好于PAT树及其变型树的查询性能。本文最后给出了分词词典实现的数据存储模型,并详细分析了该模型的优缺点。该模型的主要特点是将存储的数据分为两种不同长度信息进行存储,这样可以大大减少对文本的读取操作,能够加快分词的执行速度。对于文中提到的未登录词问题,本文也做了简单的尝试,利用PAT树的动态性特点以及统计模型的优点,从大规模文本中查找词频高于一定阈值的高频词,从而识别出一部分的未登录词,进而部分解决分词过程中未登录词过多的

3、切分问题。PAT算法和Double-Array算法具有不同的有缺点,可以满足不同场合的需要,也可以组合起来使用,解决词典查询的速度和动态性这两个较困难的问题。关键词:分词词典;双数组:PAT;词典机制人连理r大学硕上学位论文AStudyandRealizationofDouble—ArrayBasedSegmentationDictionaryAbstractThedictionarymechanismservesasoneofthebasiccomponentsinChinesewordsegmentationsystems.Itsperformanceinfluencestheseg

4、mentationspeedsignificantly.Manyapplications,suchastextsretrievaloninternet,post-processofrecognitionofChinesecharacterandspeechandpreprocessoftexttospeech,needhigh-speedsegmentation.Thus,itissignificanttpconstructaneffectivesegmentdictionary.Nowadays,thereareseveraldictionarymechanismsforinforma

5、tionprocess,andtheyayebinary—seek—by-word,TRIEindexingtreeandbinary—seek-by-character.Thelasttwomethodshavehigherinquiryefficiency.Alloftheabovethreemethodsimprovetheirinquiryefficiencyusingsortedlinertablewithcomplexdatastructuresandpoorinquiryefficiency.Inthispaper,advantagesandshortcomingsarea

6、nalyzed.InordertosatisfythespecialinquiryinChinesesegmentationwedesignandimplementasegmentdictionarybasedondouble—arrayandanalyzetheperformance.Atlast,weconductcomparisonsofdouble—arraywithotherseveraldictionarymechanisms.Experimentsshowdouble—arrayhashigherinquiryefficiencythanPAl1Iee.Thepaperfi

7、nallyproducedthedatastoragemodelofsegmentationdictionary,anddeeplyanalyzedthismodelgoodandbadpoints.Maincharacteristicofthemodelisdevidedthedataintotwokindofdifferentlengthinformation,likeitmaygreatlyreducetheoperation

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。