搜索引擎的几种常用排序算法

搜索引擎的几种常用排序算法

ID:38861060

大小:431.16 KB

页数:5页

时间:2019-06-20

搜索引擎的几种常用排序算法_第1页
搜索引擎的几种常用排序算法_第2页
搜索引擎的几种常用排序算法_第3页
搜索引擎的几种常用排序算法_第4页
搜索引擎的几种常用排序算法_第5页
资源描述:

《搜索引擎的几种常用排序算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、图书摘报工作年第期〕,搜索引擎的几种常用排序算法常璐夏祖奇江苏省委党校图书馆南京《抖南京农业大学信息管理系南京刃〔,、、摘要介绍几种比较著名的搜索引擎排序算法分别是词频位置加权玲叱和竞价排,以及各自的优缺点,名服务并重点讨论影响它们的因素最后时它们进行简要的分析和比。较〔关健词〕搜索引擎排序词频位置加权,犯竞价排名分类号叨乃及用能叨肠”汾找勿爬向眯巧,叭邵,叭刊,幼,〔加松」耐几叨’邵妈场二,泪互洲犯即,即,卯,】户,,览公沈儿而即‘罗阴详川为聊脚如」嗯你泪卯咖,罗网络信息的大爆炸给信息检索带来了

2、巨大的机回给用户,将大大节约用户的检索时间,提高检索效遇和挑战,据有关资料表明,搜索已经成为仅次于电率。。子邮件的网络第二大服务作为网络时代的指南排序可以说是每一个信息检索系统都必须具备,。由,针搜索引擎的出现的确给网络用户查找信息带来的功能于网络资源的特点作为网络时代的检。。了巨大的便利索系统搜索引擎就更需要好的排序方法搜索、,引擎的排—序法有很多种,目前比较著名的几种当推但由于网络资源具有多而杂缺少控制等特点、、再加上绝大部分网络用户没有专业检索知识,因此词频位置加权排序法算法娜笋凡扣算。用户

3、通过关键词检索总会带来数量庞大的检索结果法和竞价排名服务集合,其效果一般都不很理想。这就需要用户花费大量的时间浏览结果集,查找自己所需的页面,这实词频位置加权排序算法。际上是一个二次检索的过程如果搜索引擎能够将检索结果很好地按照相关度大小排序,返词频位置加权排序算法是一种只从关键词出现收稿日期一任一图书摘报工作年第期八以〕。次数和位置考虑进行排序的方法它是计算机情报键词中文需要自动切词根据关键词的位置和频。检索中最基础的排序算法该方法以一个关键词与次加权得出词对网页的相关度一用户检索时按照关网页的

4、相关度大小作为排序标准,而关键词在网页键词在网页中的权值大小对该网页进行排序。从上中的相关度则由它在网页中出现的频次和位置两方面的步骤可以看出,第一步、第五步都是词的加权自。,,面加权计算得出在这种方法中词对网页的相关动标引的过程因此该方法是建立在自动标引的基。。性与词在该网页中的权值成正比础上的这种算法的主要优点就是简单、易实现。该方一个词在网页中出现的次数决定词对网页的相,关度,这种思想实际上来自于卢恩自动标引法的缺点也很明显虽然词的频次和位置是决定排,。的方法。卢恩认为,过滤掉一些无检索意义

5、的词后,序结果的要素但并不是唯一要素该算法过于依,,一个词在一篇文献中出现的频次越高,那么它对这赖词的重要性而忽视了网络信息的另一个特点即。篇文献的重要性就越大,这是目前研究自动标引的网络信息内容的质量无法得到保证试想如果一个“”。网页的和妇标签由并且只由信息检索组一个基本理论基础而词的频次加权与它如出一,“”,辙,通过词频统计来计算词的权重。该方法本来是成那么在使用信息检索进行关键词检索则上述,应用于文献的自动标引,由于文献与网页之间存在网页按这种方法算出来的相关度为将排在最靠,,许多相似之处,

6、因此该方法也可以应用于网页的排前的位置但实际上它并没有提供有用的信息因此。,序。词的频率加权方法有绝对频率加权法、相对频将其排在前面是不合适的正如笔者在前面所述。。这种排序算法的前提是理想情况率加权法和反文献频率加权法等另一方面,词出现的位置也决定词对网页的相关度。一般而言,搜索引擎的检索对象是页找沈正算法面,而页面是由超文本标记,饨组成。,,对于一个特定的网页其呈现给用户浏览的内容实与前面的算法相比公司的,。际上是由超文本不同的部分如等构成的技术则是一种注重信息的质量和用户反馈,在理想状态下这些

7、不同的标签对应的内容在表达。的排序方法。,网页主题的能力上有所差异如设某网页有两个关用户输人检索词提交给搜索引擎后搜索引擎键词和,出现在标签类似于文献的题将查询到的相关信息以页面形式返回给用户名,出现于卜妇标签类似于文献的正文,如果时,一般提供相关网页的、标签和来自于,、。从文献角度出发题名出现的词应比正文出现的更】标签类似于摘要的一段少量的文字用户浏具表达主题的能力,同理对于网页来说,比更览返回的结果、查找自己需要的信息实际是一个。、。重要南京农业大学丁瑛等人通过采样统计分析网过滤无用信息进行二

8、次检索的过程用户在二次页的个不同的位置得出,对于一个网页,词在网检索中得到的结果应该是相关性较高的结果,排名,。。页中出现的位置不同其主题表达能力也不同这应该靠前。户的反馈一统计结果正是可进行词的位置加权的例证另,算法就是一种按照上述用,。外具有主题描述能力的标签的出现也给这一结果进行排序的技术其算法基本思想如下搜索,。引擎将查询的结果返回给用户开始方法带来了极大的方便但给不同的位置设立准确跟踪的权重也是一个难题,它需要进行大量的统计工作用户在该搜索引擎检索结果的点击如果返,。回结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。