下载pdf讲义搜索引擎技术介绍new

下载pdf讲义搜索引擎技术介绍new

ID:34480242

大小:282.18 KB

页数:9页

时间:2019-03-06

下载pdf讲义搜索引擎技术介绍new_第1页
下载pdf讲义搜索引擎技术介绍new_第2页
下载pdf讲义搜索引擎技术介绍new_第3页
下载pdf讲义搜索引擎技术介绍new_第4页
下载pdf讲义搜索引擎技术介绍new_第5页
资源描述:

《下载pdf讲义搜索引擎技术介绍new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Topics¢概述¢信息检索模型搜索引擎技术介绍¢信息检索系统的评价标准¢Web搜索引擎的难点¢Web搜索引擎体系结构¢WebCrawler王栋¢预处理¢索引和查找¢检索结果排序概述¢搜索引擎属于信息检索(InformationRetrieval,IR)范畴¢信息检索的基本任务£如何找到并定位特定资源?£这些资源可能来自¢Web¢数据库¢文件系统¢….¢如果目标资源是Web,就称为Web搜索引擎£Google,百度,Yahoo!信息检索模型(1/3)信息检索模型(1/2)¢信息检索模型(IRmodel)可形式化地表示为一个四元¢信息检索的一个核心问题

2、是如何决定查询和文档之间的相组:关度,即信息检索模型中的排序函数R(q,d)。¢常用的相关度评价方法是向量空间模型(VectorSpace¢其中D是一个文档集合,Q是一个查询集合,F是一个对文Model,VSM)档和查询建模的框架,R(q,d)是一个排序函数,它给查¢向量空间模型基于共有词汇假设(sharedbagof询q和文档d之间的相关度赋予一个排序值,即相关度评words),即查询和文档都被认为是有所有关键词组成的价。N维向量,相关度根据他们在向量空间中的夹角的cosine¢常见的信息检索模型有:值表示,即£布尔模型

3、(BooleanModel)R(d,q)=cos(d,q)=d·q/

4、d

5、×

6、q

7、£向量空间模型(VectorSpaceModel)¢那么如何决定N维向量每一维的权重,即N维向量中每个£概率模型(ProbabilisticModel)关键词的权重呢??£推理网络模型(InferenceNetworkModel)1信息检索模型(2/2)原理¢根据信息论原理,信息单位出现的频率越大,携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小,比如汉语中的“的”,英语中的¢根据TF*IDF公式,文档集中包含某一词条“the”。¢基于这一原理,“逆文本频

8、率指数”(InverseDocumentFrequency,IDF)通的文档越多,说明它区分文档类别属性的常被用来计算关键词的权重。关键词t的IDF值可以被表示为:IDF(t)=log(N/df(t))能力越低,其权值越小;其中N是所有文档总数,df(t)表示单词t的文档频率(DocumentFrequency),即单词t在多少篇文档中出现。¢另一方面,某一文档中某一词条出现的频¢IDF是一个单词在语言中的统计特性,所以少量新文档加入对它影响很小,可以一次计算后作为单词的属性使用。率越高,说明它区分文档内容属性的能力¢把TF(t,d)定义为单词t在文

9、档d中的出现频率,那么文档d中关键词t的权重可以表示为:越强,其权值越大。Weight(t,d)=TF(t,d)*IDF(t)其中,IDF(t)对单词t来说是一个全局权值,而TF(t,d)则是单词t在文档d中的局部权值。信息检索系统的评价标准Web搜索引擎的难点¢“效率”几乎是任何计算机系统都需要考虑的问题,比如算¢数据法的时空效率,对于信息检索系统,重要的效率指标通常£数据规模巨大且增长快有:¢比如,Web上的网页量级是billion,中国的web页面就有几十亿!£系统的查询响应时间(Responsetime)£系统的查询吞吐量(Requestth

10、roughput)。£Web的异构性Internetgrowth¢“效果”关注用户需求的满足程度,对于信息检索系统通常£多种多样4000000035000000有两个指标:查全率(Recall)和查准率(Precision)。¢文本、图片、视频、音频等3000000025000000£查全率定义为检索结果集中的相关文档占整个文档全集中的相关£非结构化和半结构化数据20000000Hosts文档的百分比15000000¢比如,文本数据和XML数据10000000£查准率定义为检索结果集中与用户查询相关的文档占整个检索结5000000果中所有文档的百分比

11、。¢用户0£查全率是衡量检索系统取回相关信息的能力,查准率是衡量检索£如何表达查询需求?Sep-69Sep-72Sep-75Sep-78Sep-81Sep-84Sep-87Sep-90Sep-93Sep-96Sep-99系统拒绝非相关信息的能力。实验证明,在信息检索中,查全率和查准率之间存在着相反的相互依赖关系,即查准率和查全率往£如何解释查询结果?往不能两全其美,通常查准率高时,查全率低;查全率高时,查准率低。Web搜索引擎体系结构QueryQueryRankedListofURLsEngineCentralindexerWebpagesIndex

12、crawlers2Web是一个有向图网络爬虫¢Google'smission:Organizetheworl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。