040 中枢与权威

040 中枢与权威

ID:37320569

大小:1.02 MB

页数:17页

时间:2019-05-21

040 中枢与权威_第1页
040 中枢与权威_第2页
040 中枢与权威_第3页
040 中枢与权威_第4页
040 中枢与权威_第5页
资源描述:

《040 中枢与权威》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中枢与权威搜索引擎关心的基本问题•计算机显示屏一次只能显示5-6个结果,典型搜索引擎掌握的网页超过10亿•对用户提交的一个查询,如何从这种海量网页集合中将最可能满足用户需求的少数几个结果找出来,展现在计算机显示屏上?传统信息检索(IR)技术的要点•基于词语之间的相关性(relevance)•传统应用背景–文档集合:图书,规范的文献–查询:主题词,关键词–查询意图:获取与查询词有关的书籍和文章–用户:图书管理人员•“查询目标包含查询词”是一个合理假设–在形成查询词的时候就有这样的潜意识现在查找学术文献有类似预期•但人们在网络上不光是要找

2、“文献”,而是多方面意义的“信息”•例如,人们给出“北京大学”查询词,多数会有什么预期?•查询“大学”呢?(意图会相当多样化)查找某些非文献信息呢?•主页放在最前面,一定不是因为其中包含许多“北京大学”字样•很可能是由于许多包含“北京大学”字样的网页指向它–利用链接中隐含的信息有效利用链接关系蕴含的信息,是搜索引擎超越传统信息检索系统、技术进步的最重要标志•Webpage之间的链接有两层含义:关系,描述餐馆推荐问题甲乙丙丁新辣道***321海底捞***320麦当劳*16五方院**215俏江南**2138667不能完全看推荐人的“水平”

3、完全区分区分开来反复改进原理假设查询词“newspaper”•左边是与“newspaper”字面上相关的网页。•右边是它们所指向的网页,得到的“票数”表示一定的认可度反复改进原理(续)(principleofrepeatedimprovement)•也可以反过来评估“推荐者”的分量•然后可以在考虑推荐者分量的情况下重新评估网站相对于“newspaper”的重要性(相当于加权评分)反复改进原理•这个过程可以反复进行下去网页的“中枢”与“权威”性•万维网中一篇网页的两面属性。观念:–被很多网页指向:权威性高,认可度高–指向很多网页:中枢性

4、强•HITS算法:计算网页的权威值(auth)和中枢值(hub)–Hyperlink-InducedTopicSearchauth(p)和hub(p)的计算方法•输入:一个有向图•初始化:对于每一个节点p,auth(p)=1,hub(p)=1•利用中枢值更新权威值–对于每一个节点p,让auth(p)等于指向p的所有节点q的hub(q)之和•利用权威值更新中枢值–对于每一个节点p,让hub(p)等于p指向的所有节点q的auth(q)之和•重复上述两步若干(k)次在搜索引擎领域,auth值或hub值高的网页,有时分别称为“权威网页”和“中

5、枢网页”。一篇网页可以兼具二者。例子:求下图各节点的auth和hub值(算法运行3轮即可)11111111HubAuth例子:中枢与权威值的迭代改进•越来越大,什么时候算完?收敛?归一化与极限•数值随迭代次数递增•Auth和hub值的意义在于相对大小•在每一轮结束后做归一化:值/总和•归一化结果随迭代次数趋向于一个极限–相继两次迭代的值不变–极限与初值无关,即存在“均衡”小结•在一个由“引用”或者“推荐”关系构成的信息网络中,每个节点有两种自然的作用:“权威”与“枢纽”(中枢)•这样的作用可以通过“HITS算法”得到量化•HITS算法

6、的基本精神是基于信息网络的结构,在两个量之间交叉进行“反复改进”

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。