欢迎来到天天文库
浏览记录
ID:33487788
大小:3.02 MB
页数:61页
时间:2019-02-26
《信息检索中虚拟域重排技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号!£曼窆!:2UDC论文题目10126.31109024密级.编号研究生:工逝塑指导教师:王俊竖塾攮专业:i土簋扭叠堂皇堇苤研究方向:信息捡塞所在学院:i土簋扭堂暄2014年5月1日㈣瞅原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得凼墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同学位论文作者签名:j幽日期:压坠6:茎指导教师签名:塞盆美日在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大
2、学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。学位论文作者签名:量红堑指导教师签名:内蒙古大学硕士学位论文信息检索中虚拟域重排技术的研究与实现摘要随着Web技术的发展,人们对于信息的需求也与日俱增。用户希望获得信息的渠道和方式更加便捷和高效,尤其是在
3、搜索信息时,期望所需求的信息尽量排在前边,这便是SEO(SearchEngineOptimization,搜索引擎优化)问题。检索结果重排序技术的研究是SEO课题一个重要的分支,且该技术的研究也趋于多样化。近几年在查询扩展中提出了虚拟域概念,取得了很好的效果,构成虚拟域的方法有许多种,但由于计算虚拟域的工作量巨大,一般只能使用一种方法进行查询扩展,不能同时综合使用几种方法,有一定的局限性。本文提出一种新的重排序模型,将虚拟域概念应用于重排方法,重排只针对初次检索结果若干文档进行,综合运用多种虚拟域提高了重排性能。基于虚拟域的重排模型,是用多种查询词运算构成多个虚拟域,通过线性插入法综
4、合多个虚拟域计算待排序文档(初次检索结果前k个文档)与查询的新的相关度,依据相关度给出新的排序。根据查询词运算符or、and、gram和phrasal设计和实现了查询词映射和构建虚拟域的算法。相关度的计算是基于传统的BM25,在其基础上实现了虚拟域重排模型。研究分析了or、or-and、or-gram、or—and—gram、or—and—gram—phrasal等5种组合的虚拟域计算方法对重排序的影响,结合已有的经验,通过大量的实验优化了模型中各个参数。本文创新之处在于结合多种运算来计算虚拟域,突破了原来单一运算符的局限,这种方法得到的文档与查询的相关度更为准确。在多个TREC集上
5、进行了实验,实验结果表明本文所提出的模型能够有效地提高重排性能。信息检索中虚拟域重排技术的研究与实现关键字:信息检索;语言模型;虚拟域;BM25;重排序Ⅱ内蒙古大学硕士学位论文RESEARCHANDIMPLEMENTATIoNOFVIRTUALREGIONRE—RANKINGININFoRMATIoNRETRIEVALABSTRACTWiththedevelopmentofWebtechnology,theinformationquantityisgrowingandgrowing.Userswantthechannelsandwaysofobtaininginformationto
6、becomemoreconvenientandefficient.Especiallywhensearchinginformation,usersexpectwhattheyneedatthefrontpage,thisisthequestionofSearchEngineOptimization(SEO).Re-rankingofsearchresultsisamainbranchofSEO,whoseresearchmethodsarebecomingincreasinglydiverse.Inrecentyears,anovelandeffectiveconceptofvirt
7、ualregionisproposedforqueryexpansion。Thereareavarietyofmethodstocreatevirtualregion.However,duetothehugeworkloadofcalculatingvirtualregion,there’Salimitationthatonlyonemethodcanbeusedforqueryexpansionatonetime.Weproposedanewre-ran
此文档下载收益归作者所有