下载pdf讲义搜索引擎技术介绍new

ID：34480242

大小：282.18 KB

页数：9页

时间：2019-03-06

资源描述：

《下载pdf讲义搜索引擎技术介绍new》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、Topics¢概述¢信息检索模型搜索引擎技术介绍¢信息检索系统的评价标准¢Web搜索引擎的难点¢Web搜索引擎体系结构¢WebCrawler王栋¢预处理¢索引和查找¢检索结果排序概述¢搜索引擎属于信息检索(InformationRetrieval，IR)范畴¢信息检索的基本任务£如何找到并定位特定资源？£这些资源可能来自¢Web¢数据库¢文件系统¢….¢如果目标资源是Web，就称为Web搜索引擎£Google，百度，Yahoo！信息检索模型(1/3)信息检索模型(1/2)¢信息检索模型（IRmodel）可形式化地表示为一个四元¢信息检索的一个核心问题

2、是如何决定查询和文档之间的相组：关度，即信息检索模型中的排序函数R(q,d)。¢常用的相关度评价方法是向量空间模型(VectorSpace¢其中D是一个文档集合，Q是一个查询集合，F是一个对文Model，VSM)档和查询建模的框架，R(q,d)是一个排序函数，它给查¢向量空间模型基于共有词汇假设（sharedbagof询q和文档d之间的相关度赋予一个排序值，即相关度评words），即查询和文档都被认为是有所有关键词组成的价。N维向量，相关度根据他们在向量空间中的夹角的cosine¢常见的信息检索模型有：值表示，即£布尔模型

3、（BooleanModel）R(d,q)=cos(d,q)=d·q/

4、d

5、×

6、q

7、£向量空间模型（VectorSpaceModel）¢那么如何决定N维向量每一维的权重，即N维向量中每个£概率模型（ProbabilisticModel）关键词的权重呢？？£推理网络模型（InferenceNetworkModel）1信息检索模型(2/2)原理¢根据信息论原理，信息单位出现的频率越大，携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小，比如汉语中的“的”，英语中的¢根据TF*IDF公式，文档集中包含某一词条“the”。¢基于这一原理，“逆文本频

8、率指数”（InverseDocumentFrequency,IDF）通的文档越多，说明它区分文档类别属性的常被用来计算关键词的权重。关键词t的IDF值可以被表示为：IDF(t)=log(N/df(t))能力越低，其权值越小；其中N是所有文档总数，df(t)表示单词t的文档频率(DocumentFrequency)，即单词t在多少篇文档中出现。¢另一方面，某一文档中某一词条出现的频¢IDF是一个单词在语言中的统计特性，所以少量新文档加入对它影响很小，可以一次计算后作为单词的属性使用。率越高，说明它区分文档内容属性的能力¢把TF(t,d)定义为单词t在文

9、档d中的出现频率，那么文档d中关键词t的权重可以表示为：越强，其权值越大。Weight(t,d)=TF(t,d)*IDF(t)其中，IDF(t)对单词t来说是一个全局权值，而TF(t,d)则是单词t在文档d中的局部权值。信息检索系统的评价标准Web搜索引擎的难点¢“效率”几乎是任何计算机系统都需要考虑的问题，比如算¢数据法的时空效率，对于信息检索系统，重要的效率指标通常£数据规模巨大且增长快有：¢比如，Web上的网页量级是billion，中国的web页面就有几十亿！£系统的查询响应时间（Responsetime）£系统的查询吞吐量（Requestth

10、roughput）。£Web的异构性Internetgrowth¢“效果”关注用户需求的满足程度，对于信息检索系统通常£多种多样4000000035000000有两个指标：查全率（Recall）和查准率（Precision）。¢文本、图片、视频、音频等3000000025000000£查全率定义为检索结果集中的相关文档占整个文档全集中的相关£非结构化和半结构化数据20000000Hosts文档的百分比15000000¢比如，文本数据和XML数据10000000£查准率定义为检索结果集中与用户查询相关的文档占整个检索结5000000果中所有文档的百分比

11、。¢用户0£查全率是衡量检索系统取回相关信息的能力，查准率是衡量检索£如何表达查询需求？Sep-69Sep-72Sep-75Sep-78Sep-81Sep-84Sep-87Sep-90Sep-93Sep-96Sep-99系统拒绝非相关信息的能力。实验证明，在信息检索中，查全率和查准率之间存在着相反的相互依赖关系，即查准率和查全率往£如何解释查询结果？往不能两全其美，通常查准率高时，查全率低；查全率高时，查准率低。Web搜索引擎体系结构QueryQueryRankedListofURLsEngineCentralindexerWebpagesIndex

12、crawlers2Web是一个有向图网络爬虫¢Google'smission:Organizetheworl

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

下载pdf讲义搜索引擎技术介绍new

下载pdf讲义搜索引擎技术介绍new

相关文章

相关标签