面向主题搜索的网络爬虫信息采集策略研究

面向主题搜索的网络爬虫信息采集策略研究

ID:12498982

大小:306.50 KB

页数:196页

时间:2018-07-17

面向主题搜索的网络爬虫信息采集策略研究_第1页
面向主题搜索的网络爬虫信息采集策略研究_第2页
面向主题搜索的网络爬虫信息采集策略研究_第3页
面向主题搜索的网络爬虫信息采集策略研究_第4页
面向主题搜索的网络爬虫信息采集策略研究_第5页
资源描述:

《面向主题搜索的网络爬虫信息采集策略研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、面向主题搜索的网络爬虫信息采集策略研究1、相关定义1.1、相关概念VSM中的概念相对较为简单,其实质是把待处理的文档分词转变成多维向量空间中的相应向量进行比较处理,而且VSM可以将抽象的文本相似度转变为更加直观的空间中的相似度进行计算,它的核心就是文本的向量表示。文档内容经过提取特征词等一系列处理后就可以表示为由特征词构成的向量空间的向量,此时,文本的相似就可以映射到向量的相似上,也就是向量之间的夹角,那么我们就可以认为这个相似度就是两个文档之间的相似度,相似度越大的它们所指的内容就越相近,反之相似度越小的它们的内容就相差越大。向量空间模型中文档(Document)、

2、项(Term)、项权重(TermWeight)、向量空间、相似度(similarity)是它的非常重要的概念。向量空间模型也可以称为词组向量空间模型,自从Salton研究出来了以后就被广泛的应用了,实际中在信息抽取、论文检测、主题相似度评估、搜索引擎有很多的应用,其实质是一个以数学为基础的应用模型。其中所谓文档,泛指一般的文本,可以是网页文本也包含了多媒体文本对象,是可以被词组表示的文档。模型中用于计算的项(Term)是指用文档用包含的部分词组、短语等表示它所在的文档内容,这些词组或者词语等就称之为项,也就是用于表示文档的词组或者短语都叫项。一片文档D可以表示为D=(

3、T1,T2,T3,)。对于每一个项,每篇文档中该项所占的比重是不同的,对应着每一个比重Wi(0=1.2、网络管理数据采集系统的消息定义Server端和Collector端是通过JMS消息来进行通信的。JMS消息中包括通用的JMS消息属性和网管系统中具体的业务消息的属性两部分,下面分别对这两部分进行介绍。3.1.1JMS消息JMS消息由消息头、消息属性和消息体三部分组成。消息头包含消息的识别信息和路由信息,消息头包含一些标准的属性如:JMSDestination,JMSMessageID等。表3.1说明了消息头的具体属性以及这些属性由谁设置。表3.1JMS消息头的具体属

4、性消息头的属性属性意义由谁设置JMSDestination消息发送的目的地。send或publish方法JMSDeliveryMode传递模式。有两种模式:PERSISTENT和NON_PERSISTENT。PERSISTENT表示该消息一定要被送到目的地,否则会导致应用错误。NON_PERSISTENT表示偶然丢失该消息是被允许的。这两种模式使开发者可以在消息传递的可靠性和吞吐量之间找到平衡点。send或publish方法JMSExpiration消息过期时间,等于QueueSender的send方法中的timeToLive值或TopicPublisher的publ

5、ish方法中的timeToLive值加上发送时刻的GMT时间值。如果timeToLive值等于零,则JMSExpiration被设为零,表示该消息永不过期。如果发送后,在消息过期时间之后消息还没有被发送到目的地,则该消息被清除。send或publish方法19续表JMSPriority消息优先级,从0-9十个级别,0-4是普通消息,5-9是加急消息J。MS不要求JMSProvider严格按照这十个优先级发送消息,但必须保证加急消息要先于普通消息到达。send或publish方法JMSMessageID唯一识别每个消息的标识,由JMSProvider产生。send或pu

6、blish方法JMSTimestamp一个消息被提交给JMSProvider到消息被发出的时间。send或publish方法JMSCorrelationID用来连接到另外一个消息,典型的应用是在回复消息中连接到原消息。客户JMSReplyTo提供本消息回复消息的目的地址客户JMSType消息类型的识别符。客户JMSRedelivered如果一个客户端收到一个设置了JMSRedelivered属性的消息,则表示可能该客户端曾经在早些时候收到过该消息,但并没有签收(acknowledged)。JMSProvider消息属性是指除了消息头中定义好的标准属性外,JMS通过提供

7、一种机制所增加到消息头中的新属性,这些新属性包含以下几种:消息头中原有的一些可选属性;JMS提供者需要用到的属性;具体应用需要用到的属性(我们自己定义的具体的网管消息属性)。消息体也叫消息类型。JMSAPI定义了5种消息体格式,可以使用不同形式发送接收数据并可以兼容现有的消息格式。表3.2描述了这5种类型。表3.2JMS的消息类型消息类型说明TextMessagejava.lang.String对象,如xml文件内容MapMessage名/值对的集合,名是String对象,值类型,可以是Java任何基本类型BytesMessage字节流StreamM

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。