一种自适应字长的中文词库的构建方法

一种自适应字长的中文词库的构建方法

ID:9819160

大小:436.44 KB

页数:8页

时间:2018-05-10

一种自适应字长的中文词库的构建方法_第1页
一种自适应字长的中文词库的构建方法_第2页
一种自适应字长的中文词库的构建方法_第3页
一种自适应字长的中文词库的构建方法_第4页
一种自适应字长的中文词库的构建方法_第5页
资源描述:

《一种自适应字长的中文词库的构建方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第三届全国信息检索与内容安全学术会议一种自适应字长的中文词库的构建方法i居产,詹海生,鼠水生(西安电子科技大学计算机学院,西安,710001)摘要:中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的哈希值区间,从而将哈希值的冲突率降低到0.034%,进一步提高了查找效率。文中大规模动态词库的建立方法可用于计算机语料库建设和中文输入法等自然语言处理过程。关键词:异或算法;哈希函

2、数;中文词库;自适应字长AWord—-lengthAdaptiveMethodofChineseDictionaryConstructionWangQihu,ZhanHaisheng,ZhouShuisheng(SchoolofComputerScienceandTechnology,XidianUniversity,Xi’all,71001)Abstract:TheChinesedictionaryiscriticaltothestorageandsearchoftextInformationin

3、Chinesesearchengine.BasingontheExclusive·ORalgorithm,themachinecodecombinedwithstrokenumberofChinesecharacterwasemployedtohashthewordswithdifferentlengthintothecorrespondingspaceofhashvaluewithaccordingtotheprobabilitystatisticsresultsofawordpresenting

4、.Asaresult,thecollisionrateofhashvalueisbroughtdowntoo.034%andthesearchefficiencyis。up.Thismethodcanbeusedintheconstructionoflarge-scaledynamicdictionaryaswellastheothertaskofnaturallanguageprocessingsuchastheconstructionofChinesecorpus,Chinesewordinpu

5、tmethoddesignandSOon.keywords:Exclusive—ORAlgorithm;HashFunction;ChineseDictionary;Self-Adaptiveofwordlength基金资助:国家自然科学基金(60603098)作者简介:王启户(1981一),男,陕西,硕士生email:rikyok@126.COm詹海生(1970-),男,山东,副教授,博士周水生(1972一),男,陕西,副教授,博士377第三届全国信息检索与内容安全学术会议1引言大规模中文词库是中

6、文信息检索系统的关键环节之一,利用中文词库可以提高信息处理的效率和最终检索的准确性。早期词库多用人工方式建设,手动地进行词性等标引。随着信息处理技术的发展,出现了使用语义和语法规则的自动和半自动化词库建设方法。在搜索引擎系统中,早期使用的是利用统计方法自动产生的词库⋯,这类词库中往往存在大量噪音数据。不得不使用手工标注方法去除这些噪音数据。而在自动词库建设过程中,查找算法的效率决定了词库生成的效率口棚。在大规模词库的自动生成过程中,查找算法主要用于词条的消重添加操作,随着词库规模的不断增大,一般的查

7、找算法越来越慢,因此词典的查找和插入成了影响大规模词库生成效率的瓶颈。PeterK.Pearson【2】提出一种异或哈希函数,林亚平pj将算法应用到中文词库的建设中并着重对算法的性能进行了评价,根据不同词库大小设计不同算法,小规模词库建设平均查找步长为5,而对于词库大小超过2‘14的情况,算法效率将下降。设计一个自适应字长的扩展异或哈希算法,高效的解决大规模词库构建环节的瓶颈问题,是系统中各阶段信息处理的基础。问题的解决也为其他中文词库处理应用提供一定的理论和实践参考,如中文翻译、中文输入发等领域。

8、2异或哈希算法大多的哈希算法是在讨论如何解决冲突问题,而PeterK.Pearson[21年1.J用密码学中对密码校验和信息证实的异或校验算法讨论如何构造散列函数,因为函数用简单的位逻辑运算,所以算法满足计算量小,运算速度快的特点,实际中根据不同应用环境,表现的冲突率和平均查找长度都能很好的满足应用的需要,如图1算法1所示。林亚平f31分析了异或哈希算法在中文信息处理中的应用,给出了适用于中文词条的异或哈希算法,如图1中的算法2所示。算法1:对英文处理的异或哈希算法算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。