基于词典和词频分析论坛语料未登录词识别的研究

基于词典和词频分析论坛语料未登录词识别的研究

ID:32248932

大小:7.34 MB

页数:61页

时间:2019-02-02

基于词典和词频分析论坛语料未登录词识别的研究_第1页
基于词典和词频分析论坛语料未登录词识别的研究_第2页
基于词典和词频分析论坛语料未登录词识别的研究_第3页
基于词典和词频分析论坛语料未登录词识别的研究_第4页
基于词典和词频分析论坛语料未登录词识别的研究_第5页
资源描述:

《基于词典和词频分析论坛语料未登录词识别的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要基于词典和词频分析的论坛语料未登录词识别研究计算机软件与理论专业硕士研究生朱明强指导教师余建桥教授摘要中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信息科技的高速发展,hnemet的中文信息量的飞速增长对中文分词准确性的要求越来越高,未登录词识别问题一直是制约中文分词效率的瓶颈,为了有效解决中文分词中未登录词识别效率低的问题,本文提出了一种基于词典和词频分析相结合的网络论坛语料未登录词识别策略,将从以下几个方面展开。(1)选取天涯论坛数据构建动态语料库,利用网络蜘蛛W曲Lech爬取技术,

2、下载天涯论坛数据至本地硬盘,利用基于Java解析器Jsoup对下载到本地h廿nl等网页文件进行解析,得到干净的1Ⅺ文本文件构建语料库。将双字耦合度函数和T-测试函数线性叠加构造新的统计量CT来识别语料库中的候选未登录词。CT算法是未登录词识别原型系统中学习训练模块的重要组成部分,作为判断候选未登录词的依据,将其加入到临时词典中,在临时词典中统计候选未登录词的词频,将词频大于阈值的候选未登录词认定为未登录词加入到核心词典,其余作为高频非词字串加入停用词典。(2)设计了分词词典结构,将分词词典设计成核心词典和扩展词典两级结构:核心词典作为分词的依据,采用首字hash存储

3、支持快速查找,词典以词组为单位按词长由长到短顺序存储,这样可以大大减少匹配次数,提高查找效率。扩展词典分为临时词典和停用词典,临时词典与统计策略相结合,作为候选未登录词的学习训练依据,停用词典用来存储高频非词字串,这样可以减少临时词典的负担。优化了分词匹配算法,设计了改进的正向匹配算法AMM。实现了根据词组长度动态设置最大匹配词长。实验证明,提高了匹配效率,同时一定程度上解决了多次无效匹配和长词被切分的问题。’(3)设计实现了未登录词原型系统。在整合前面研究的基础上设计实现了原型系统,原型系统包括:语料采集模块、文档解析模块,这两个模块用于构建语料库;系统学习训练模

4、块,此模块用于向核心词典输送新词;分词模块,此模块用于实现中文自动分词。同时对系统初始化后和学习训练后分词比较,证明系统的可行性,在新词召回率、准确率等方面都有了一定提高。关键词:未登录词中文分词词频分析核心词典AbstractChme∞AutomaticWbrdSegment撕0nTecllIlolo_彰isab雒iciSsueofChineseInf0加ationP眦essing,访廿leCmnese‰撕onprocessing,firstly,segme吡m叽ofttlewo咄锄dthentoadeeperlevelofapplied删;∞rch.晰mnlem

5、piddeVelopmeIltof撕撕ontecllflolog弘仕lerapidgrow吐lofthe锄ountofCh.meSeiIlf0加ationontheIntemetputforwardt0hi曲erdemandonCllinesewordse孕nentationacc啪cy.I7nl(110wnwordreco鳓ionh罄beenabottleneckwhichre硎cted吐屺e伍ciencyofⅡ圮Chillese、Ⅳ0rdsegmentation,iIlordert0e位ctiVelyS0lvenleproblem0flowe伍ciencyof恤

6、lllllmownwordrecog血ioniIlmeClliIleSewordse舯en僦。玛misarticlefocus0naf叭ullscorpusunl(Ilownwordrec0弘itiong吮Ce影wIlichisbasedonacombinationofdictionariesa11d、vord舶quency锄alysis.T1lisp印erisdesi驴edinⅡlefollowingparts.(1)SelectingtheTiaIlyaFommda妇tobuildadyn锄icc0印llS,uSingthene觚orkspiderW曲Lechc

7、ra、vlingtecllIl0109),t0dowIlloadtheTianyaFon_lIndatat0the10calharddi啦usingmeparserJsoupbaSedonJavatoparsenleh缸nl锄dotllerwebfilesdownloadedt0melocal,wecanobta协cle锄1Ⅺte斌filet0buildcorpuS.Theline甜supe印ositionof1、Ⅳ小wordcoupl.mgfhIlction锄dT_test劬ctjoncallcollS仃uctanews洲sticCTtoidenti匆tlle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。