搜索引擎的架构

搜索引擎的架构

ID:39263615

大小:1.65 MB

页数:31页

时间:2019-06-29

搜索引擎的架构_第1页
搜索引擎的架构_第2页
搜索引擎的架构_第3页
搜索引擎的架构_第4页
搜索引擎的架构_第5页
资源描述:

《搜索引擎的架构》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1第二章搜索引擎的架构2搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。3搜索引擎使用情况分析报告4搜索引擎使用情况分析报告52.1什么是软件架构软件架构是在一个特殊的抽象层次用于描述系统的工具通常包括软件组件、软件提供的接口以及各组件之间的联系搜索引擎架构的需求效果(effectiveness):对于一个用户查询,希望检索到最多的相关文档;效率(efficiency):尽可能快地处理用户的查询62.2

2、基本构件索引处理建立可查找的数据结构查询处理使用这些数据结构和用户的查询生成一个排好序的文档列表7892.3组件及其功能索引处理构件文本采集文本转换索引创建查询处理构件用户交互排序评价10爬虫为搜索引擎发现和抓取文档;许多类型,web,enterprise,desktop,主题爬虫网络爬虫通过追踪网页上的超链接来找到并下载新的页面-能够高效处理互联网上大量出现的新网页-抓取任务可以限制在一个单独的站点-主题爬虫采用分类技术限制所访问的网页是同一主题2.3.1文本采集11爬虫(Cont.)及时、高效的收集数

3、量尽可能多的有用的万维网页面,以及建立它们之间的超链接关系侧重用户需求:及时、数量多、有用侧重搜索引擎系统需求:高效收集的内容:网页、链接关系2.3.1文本采集(Cont.)12运行原理2.3.1文本采集(Cont.)13信息源(Feeds)是一种存取实时文档流的机制;-e.g.,新闻信息源是一个持续不断的新闻流及新闻的更新-RSS是互联网信息源采用的一个通用标准;-RSS“阅读器”用于支持RSS信息源,采用XML数据格式。阅读器检测信息源,可以获取信息源更新的内容;转换(Conversion)e.g.H

4、TML,XML,Word,PDF,etc.→XML文本编码转换以适用不同语言-Unicode是一个通常使用16位进行编码的标准编码方案,可以表示世界上绝大多数语言中使用的文字2.3.1文本采集(Cont.)14文档数据库存储文本、元数据和另一些文档相关的内容-文档元数据,如文档类型、创建时间-另一些内容如超链接、锚文本为搜索引擎组件提供对文档内容的快速存取-e.g.resultlistgeneration2.3.1文本采集(Cont.)1516解析器处理文档中的文本词素序列,以识别文档中的结构化元素-e.

5、g.,titles,links,headings,etc.词素切分是指识别文档中的词素---由空格分开的字母和数字构成的字符串-包括处理特殊字符,如大小写、连接符、单撇号-E.g.“apple”and“Apple”;”on-line”;”O’Connor”文档结构通常由HTML、XML等标记语言指定-使用tag定义文档元素,E.g.,

Overview

-文档解析器使用标记语言的句法知识识别文档的结构2.3.2文本转换17停用词去除不具有实际意义的功能词,去除后不影响搜索效果-e.g.,“a

6、nd”,“or”,“the”,“in”根据实际应用确定停用词表-避免“tobeornottobe”词干提取去除词缀得到词根的过程---得到单词最一般的写法-e.g.,“computer”,“computers”,“computing”,“compute”2.3.2文本转换(Cont.)18超链接的抽取和分析抽取内容:超链接和锚文本链接分析向搜索引擎提供一个页面的关注度,并在一定程度上提供页面的权威度-e.g.,PageRank锚文本是网络链接上可以点击的文本,给出了链接所指向页面的内容概要2.3.2文本转

7、换(Cont.)19信息抽取识别更加复杂的索引项,而不是一个单独的词-E.g.一个黑体、加粗的词,题目中的词识别指定语义的特征-命名实体识别,E.g.人名、公司名、日期、地名分类器识别与类别相关的数据。i.e.,assignslabelstodocuments辨别一个文档是否是垃圾文档识别文档中的非内容部分,如广告等2.3.2文本转换(Cont.)20文档统计汇总和记录词、特征及文档的统计信息;-E.g.索引项在各文档中出现的频率、索引项在文档中出现的位置、索引项在一组文档中出现的次数、按照词素统计的文档

8、长度等统计结果存储在查找表中,查找表是设计用于快速检索的一种数据结构排序组件使用统计信息计算文档的分值2.3.3索引的创建21加权(Weighting)文档中词的权重反映了文档中词的相对重要性用于排序算法e.g.,tf.idfweight倒排索引处理的核心组件将文本转换组件传递过来的文档-词项信息转换为词项-文档信息倒排索引用于快速的实现查询处理-要求能够处理更新-索引压缩以提高效率2.3.3索引的创建(Cont.)22索引分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。