中文信息检索中词典机制分词算法的研究-论文.pdf

中文信息检索中词典机制分词算法的研究-论文.pdf

ID:54979823

大小:307.68 KB

页数:4页

时间:2020-05-07

中文信息检索中词典机制分词算法的研究-论文.pdf_第1页
中文信息检索中词典机制分词算法的研究-论文.pdf_第2页
中文信息检索中词典机制分词算法的研究-论文.pdf_第3页
中文信息检索中词典机制分词算法的研究-论文.pdf_第4页
资源描述:

《中文信息检索中词典机制分词算法的研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第24卷第4期计算机技术与发展Vo1.24No.42014年4月COMPUTERTECHNOLOGYANDDEVELOPMENTApr.2014中文信息检索中词典机制分词算法的研究宗乐中T(江苏省邮电规划设计院有限公司,江苏南京210006)摘要:中文自动分词是实现搜索引擎信息检索的基础,分词词典是汉语自动分词系统的一个重要组成部分,词典的加载和查询速度直接影响到分词系统的速度。文中在研究传统词典机制的基础上,分析了基于双字哈希词典机制对词条除首次字外剩余词的不足,给出了一种改进的双字哈希的词典机制。最后,文中对改进算法从准确率、分全率和

2、分词速度等方面进行了测试,结果表明,改进后的分词算法在不提升已有典型词典机制维护复杂度的情况下,提高了词条匹配的查询速度和效率。关键词:信息检索;中文分词;数据结构;哈希中图分类号:TP301.6文献标识码:A文章编号:1673—629X(2014)04—0118—04doi:10.3969/j.issn.1673-629X.2014.04.030StudyofSegmentationAlgorithmofDictionaryMechanismOrientingChineseInformationRetrievalZONGZhong(Ji

3、angsuPosts&TelecommunicationsPlanningandDesigningInstituteCo.,Ltd,Nanjing210006,China)Abstract:Chineseautomaticsegmentationisthebaseoftheinformationretrievalsearchengine.WorddictionaryisanimportantpartofChinesewordsegmentationsystem.Theloadingandqueryingeficiencyisakeyimp

4、actfactofthewordsegmentationsystem.Based011thestudyofthetraditionaldictionarymechanism,analyzetheweakpointofthedoublewordhashdictionary,andproposeamodifieddoublehashdictionary.Atlasttestthemethodfromtheaccurate,full-rate,wordspeed,etc.Withtheresultofthetest,thisimprovedha

5、shmechanismenhancestheentryspeedandeficiencyofmatchingqueries,withoutcompletingthemaintenancecomplexityofthetraditionaldictionary.Keywords:informationretrieval;Chinesewordsegmentation;datastructures;hashO引言所以其精确度依赖于词典的完全性和歧义的有效消信息检索是将信息按一定的方式组织和存储起除,速度则取决于所设计的加载词典的数据结构和来,

6、并根据用户的信息需求查找所需信息的过程和技相应的切分算法。因而,分词词典是基于词典机制术。对中文文本信息检索来说,由于中文文本是按句的汉语自动分词系统的重要组成部分,其性能的优劣连写的,每个句子中的词没有空格,需要用分词来处直接影响到分词系统的速度和效率,建立高效而快速理⋯。因而在中文文本信息检索处理中,对歧义切分的分词词典机制势在必行。字段的处理能力,严重影响到中文自动分词系统的精度,词的正确切分是进行中文文本信息检索处理的1传统的词典机制必要条件。因而,分词能有效地提高文本检索的效分词词典是汉语自动分词系统的一个重要组成部率。分。词典

7、的加载和查询速度直接影响到分词系统的速基于词典的分词算法作为当前分词技术的主流,度,对于基于词典的分词算法,影响其精度的因素由于分词系统所需要的各类信息都要从词典中获取,有:分词词典中词库的选择和词条的数量;机器可读收稿日期:2013—06—03修回日期:2013—09—15网络出版时间:2014—01—28基金项目:江苏省自然科学基金项目(BK2009425)作者简介:宗中(1984一),男,江苏南京人,硕士,法国工程师,研究方向为计算机应用、信息化咨询、项目管理。网络出版地址:http://www.cnki.net/kcms/deta

8、il/61.1450.TP.20140128.1144.030.html第4期宗中:中文信息检索中词典机制分词算法的研究·119·词典与待切分文本中词汇的匹配关系;未登录词;分词样可以在这个空

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。