垂直搜索引擎技术指标

垂直搜索引擎技术指标

ID:9854551

大小:328.00 KB

页数:16页

时间:2018-05-12

垂直搜索引擎技术指标_第1页
垂直搜索引擎技术指标_第2页
垂直搜索引擎技术指标_第3页
垂直搜索引擎技术指标_第4页
垂直搜索引擎技术指标_第5页
资源描述:

《垂直搜索引擎技术指标》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、垂直搜索引擎技术指标一、什么是垂直搜索    垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。   垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去

2、重、分类等,最后分词、索引再以搜索的方式满足用户的需求。  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。    垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。       二、垂直搜索技术概述    垂直搜索技术主要分为两个层次:模板级和网页库级。    模板级是针对网页进行模板设定或者自动生成模板的方式抽取数

3、据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。    网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用

4、户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。下图为垂直搜索引擎结构的拓扑图。16三、垂直搜索引擎的主要技术指标<1>、信息采集技术:垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性

5、(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似

6、搜索引擎的大库、周库、日库,小时库……聚焦、实时和可管理  一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或说层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中。但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦

7、、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。一般信息采集软件(爬虫)的基本结构包含以下模块:16(1)保存种子的URL和待取的URL的数据结构。(2)保存已抓取过的URL的数据结构,防止重复抓取。(3)页面获取模块。(4)对已经获取的页面内容的各个部分进行抽取的模块。以下为其他可选模块:(5)负责连接前处理模块(6)负责连接后处理模块(7)过滤器模块(8)负责多线程模块(9)负责分布式的模块信息采集实质上也就是搜索引擎对页面的收录页面收录-就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进

8、行存储的过程,为搜索引擎开展各项工作提供数据支持。(包括:域名列表、URL列表、网页快照页面) 1)页面收录方式:广度优先、深度优先、用户提交等三种方式。 广度优先–如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因些,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。