搜索引擎的相关性排序研究

搜索引擎的相关性排序研究

ID:36836075

大小:3.52 MB

页数:60页

时间:2019-05-16

搜索引擎的相关性排序研究_第1页
搜索引擎的相关性排序研究_第2页
搜索引擎的相关性排序研究_第3页
搜索引擎的相关性排序研究_第4页
搜索引擎的相关性排序研究_第5页
资源描述:

《搜索引擎的相关性排序研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学硕士学位论文搜索引擎的相关性排序研究姓名:王黎申请学位级别:硕士专业:模式识别与智能系统指导教师:帅建梅20100501摘要随着计算机系统性能的提高和网络技术的不断进步,万维网成为全球最大的信息资源库,如何为如此庞大的信息资源提供高效的导航服务,帮助用户在海量的数据中快速找到需要的信息是搜索引擎亟待解决的问题。用户通常只关心搜索引擎返回的排在前面的结果,因此对搜索引擎索引的文档按照与用户查询的相关程度进行排序,将相关度高的文档排在前面,即本文研究的搜索引擎的相关性排序,成为当前研究的重点和热点。本文的主要研究工作可归纳为以下几点:(1)研究了文本搜索引擎的相关性排序模型,

2、包括布尔模型,向量空间模型,概率模型,超链接模型,自学习排序模型。其中自学习排序模型将机器学习方法运用于搜索引擎的相关性排序问题,解决了以往模型的许多不足之处。(2)为自学习排序模型提出一种构造训练集的方法。自学习排序是一种有监督的机器学习方法,模型的性能很大程度上依赖训练集。本文提出一种同时考虑查询的难度、密度、多样性的贪心算法,从海量的查询中选择有信息量的查询进行标注。实验表明本文提出的方法能构造一个规模较小且有效的训练集。(3)研究了图像重排序算法。现今的图像搜索引擎主要利用图像周围的文本信息进行排序,没有考虑图像视觉信息。图像重排序是在文本搜索结果的基础上,通过挖掘图像视觉特征的

3、内在关系,对原始搜索结果进行重新排序,使新的序列更能满足用户需求。基于分类、基于聚类和基于图理论是图像重排序的三类主要方法。(4)提出一种与查询相关的图像相似性的度量方法。在图像重排序中如何度量图像相似性至关重要。现有的相似性度量没有考虑针对不同的查询,图像的相似性应该不同。本文提出一种与查询相关的相似性度量方法,把基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询相关的图像信息,计算相似性。实验结果表明本文提出的相似性度量方法在图像重排序中优于基于全局特征,局部特征,或它们线性组合的相似性。关键词:搜索引擎的相关性排序,自学习排序模型,

4、构造训练集,图像重排序,图像特征提取,图像相似性度量AbstractABSTRACTWiththeimprovedperformanceofcomputersystemsandthecontinuousprocessofnetworktechnology,theWorldWideWebhasbecomethelargestinformationresourceswarehouse.Searchengineshavetoprovideefficientnavigationserviceforsuchhugeinformationresourcestohelpusersquicklyfind

5、theinformationtheyneedinvastamountofdata.Andusersusuallyonlybrowsetheresultsrankednearthetopofthesearchenginereturns.Soinordertohelpusersfindrequiredinformation,searchenginessorttheindexeddocumentsbytherelevancetousers’requirement.Howtoorderthehighlyrelevantdocumentsonthetopoftheresultsisacrucial

6、forsearchengines.Itisalsoknownassearchengines’relevanceranking,whichisthefocusofcurrentresearch.ThemainresearchworkinthispaperCanbesummarizedasfollows.1.Studyonsearchengines’relevancerankingmodels,includingBooleanmodel,vectorspacemodel,probabilisticmodel,thehyperlinkmodelandlearningtorank.Learnin

7、gtorankhasbecomeapopularmethodtobuildarankingmodelforW.ebsearch.2.Proposeanalgorithmtoconstructtrainingsetinleamtorank.Theperformanceofrankingmodeldependsonthetrainingset.Inthispaperwedevelopagreedyalgorithmtoselectque

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。