基于统计语言的中文网页信息检索模型研究

ID：32975484

大小：6.01 MB

页数：53页

时间：2019-02-18

资源描述：

《基于统计语言的中文网页信息检索模型研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、华中师范大学硕士学位论文基于统计语言的中文网页信息检索模型研究姓名：李贞申请学位级别：硕士专业：情报学指导教师：李进华201205摘要互联网飞速发展，信息呈指数增长，信息获取途径更为多样化，但是信息搜索却变得更为复杂了。人们迫切需要高层次的信息处理技术来处理海量信息，快速检索到所需信息，从而帮助更好的进行决策和研究。然而，信息处理技术的普及与广泛应用很大程度上得益于自然语言处理技术的发展，为了有效解决信息检索问题，对信息检索在文档内容表示、检索模型、匹配策略以及排序算法等方面的研究逐渐增多。其中，对检索模型的研究仍然是

2、信息检索研究的一个热点，各种检索模型和方法相继出现，如：布尔模型、向量空间模型、概率模型。尤其是近年来提出统计语言模型，将自然语言与统计学相结合来研究信息检索，借助强大的数学基底，成为信息检索中占据统治地位的检索模型，并取得了大量研究成果。对中文网页海量数据进行研究，并将中文分词组件与lemur结合构建适宜于中文的信息检索系统方面的研究相对缺乏。本文在大规模中文网页语料库CWT200G的基础上，参考TREC和SWEM信息检索标准流程，以Lemur为基准工作平台，将其与中科院分词组件一汉语词法分析系统ICTCLAS相结合

3、，形成一个可供实验的简单的信息检索系统。首先，阐述了本文的理论基础，介绍了基于统计语言方法的中文网页信息检索模型研究中所要研究的重点问题：统计语言模型、数据平滑、中文分词和中文文本索引等。然后，对信息检索评测的中文网页语料库和实验所需平台及系统进行简单介绍，对数据如何处理做了详细分析。最后，通过实验数据对比分析向量空间模型、概率模型等传统信息检索模型与统计语言模型对中文网页语料库进行主题检索时性能优劣；同时，在统计语言模型进行主题检索实验的时候，分别对SimplifiedJelinek—Mercer平滑方法、Diric

4、hletPrior平滑方法和AbsoluteDisc,outing平滑方法进行实验，并对比这三种平滑方法在信息检索中的性能。关键词：统计语言模型：中文网页信息检索；数据平滑技术；中文分词AbstractAstherapiddevelopmentofIntemet,informationhasgrownexponentially,accessinginformationbecomesmoreandmorediverse，butinformationsearchhasbecomeevenmorecomplicated．An

5、urgentneedforhi【gh—levelinformationprocessingtechnologytohandlethevastamountsofinformation,andretrievethenecessaryinformationtoquicklytohelppeoplemakebeRerdecisionsandresearch．However,thepopularityandwi(1eapplicationofinformationprocessingtechnologyislargelythan

6、kstothedevelopmentofnaturallanguageprocessingtechnology,inordertosolvetheproblemofinformationretrievaleffectively,theresearchofinformationretrievalinthedocumentcontent,theretrievalmodel，matchingstrategyandsortingalgorithmsgraduallyincreasing．Retrievalmodelisstil

7、lahottopicofinformationretrievalresearch,avarietyofretrievalmodelsandmethodshaveemerged,suchas：booleanmodel，vectorspacemodel，probabilisticmodel．Especiallyinrecentyears，putforwardastatisticallanguagemodel，combiningthenaturallanguageandstatistical，谢tllastrongmathe

8、maticalbasement,statisticallanguagemodelsbecomedominantintheinformationretrievalmodel，andhasmadealotofresearch．Onthebasisoflarge-scaleChinesewebcorpusCWT200G,referenc

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 53



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于统计语言的中文网页信息检索模型研究

基于统计语言的中文网页信息检索模型研究

相关文章

相关标签