网络flash爬虫搜索方法比较研究

网络flash爬虫搜索方法比较研究

ID:12582257

大小:27.50 KB

页数:6页

时间:2018-07-17

网络flash爬虫搜索方法比较研究_第1页
网络flash爬虫搜索方法比较研究_第2页
网络flash爬虫搜索方法比较研究_第3页
网络flash爬虫搜索方法比较研究_第4页
网络flash爬虫搜索方法比较研究_第5页
资源描述:

《网络flash爬虫搜索方法比较研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络Flash爬虫搜索方法比较研究  Flash资源以其生动、易于交互和制作简单等特点越来越受到人们的追捧。但是随着网络技术的快速发展,Flash资源在网络中的存在形式变得格外复杂,传统搜索引擎对网络Flash资源的获取不能到达令人满意的水平。作为搜索引擎的基础组成部分,网络爬虫的作用必须得到人们足够的重视,所以,改进网络爬虫的搜索方法越来越受到人们的重视。本文提出一种新的搜索方法,与传统爬虫的基本组成结构和搜索结果进行比较,验证新搜索方法的优势。  1网络Flash资源的优点及存在形式  网络Flash资源的优点  1)Flash动画通常比

2、较短。因为只占有有限的网络带宽,通常是几兆字节大小,Flash动画平均时间比起传统动画会更短一些。  2)Flash动画能够与观看者产生互动,满足观看者更多需求。观看者可以通过一定的操作来改变动画的播放进程,传统的动画并不具有这样的特性。  3)Flash动画的制作相对传统动画更简易。Flash动画制作爱好者能够相对比较容易地转变为制作者,他们只需要掌握一些与动画制作相关的软件就可以尝试制作Flash动画。Flash动画的制作需要在电脑上进行,Flash制作软件需要的条件比较简单,对硬件要求也比较低,所以不需要较大的投入。  4)Flash动

3、画占用空间较小。Flash动画可以使用矢量图形,所以使得文件所用空间较小;Flash动画完成后可以上传到网上,互联网用户可以欣赏和下载,能够以较快的速度在网络中传播,这样的联盟一个优点让Flash动画迅速在网络上风靡起来。用传统方法制作的一些动画,因为占用的空间比较大,在网络上传播起来就比较困难。  5)Flash动画受制作者水平和技术等原因的限制。不可否认的是,互联网上的不少Flash动画还是比较粗糙、简单的,但是Flash动画的确有还在发展一些新的视觉效果,如三维效果,相信未来将有新的发展。它比起传统的动画来说更容易和智能,更符合大众口味

4、。  6)Flash动画大大减少人力、材料资源的消耗,存储方式更加方便,生产成本大大降低。与此同时,Flash动画在制作周期上相比传统动画也会大大减少,对于相同时长的动画,用Flash技术来制作所需要的时间将会大大缩短,而用传统方法制作通常花费的时间要更长一些。  网络Flash资源的存在形式Flash资源通常存放在Web服务器中,往往以独立的文件形式存在。传统的方式包括两种。  第一种是嵌入到网页中作为网页组成的一部分。Flash动画嵌入网页的方法很多,情况比较复杂,目前主要是利用标签、脚本、函数或对象将Flash资源嵌入网页,使用网页浏览

5、器解析网页的HTTP标签和脚本,再用相应的形式显示、播放Flash动画。  第二种是通过网页中的锚文本链接。网页中用锚文本链接Flash动画很简单,可以自由下载。然而,通过Java-Script脚本展现的Flash动画资源作为一种丰富的存在形式,人们对它的研究还比较少。  网络爬虫的定义和工作原理  网络爬虫的定义网络爬虫是搜索引擎系统结构中搜索器的俗称,又叫网络蜘蛛,是一个自动搜集网页的系统程序。它的功能是昼夜不停地在互联网中爬行,收集信息,通常从首页开始,读取网页信息,找到网页中的其他链接地址,继而找到下一个网页,再在新的网页中找到新的链

6、接地址。这样循环往复,目的是把该网站的所有网页抓取完毕。它负责搜集新信息,更新旧信息。  网络爬虫的工作原理当蜘蛛抓取网页,一般有两种信息收集策略。  1)以URL集合作为起始,沿着这些URL,以宽度优先、深度优先,循环往复地在Web中收集信息。它沿着网页中的超链接爬行到其他网页,循环处理,并把搜集到的全部网页保存起来。这些起始URL通常是一些很正规且包含很多链接的站点。  2)网站空间根据域名、IP地址等划分,每个网络蜘蛛负责一个子空间的穷举搜索。爬虫搜集多种多样的信息,包括网页文件,有的网络爬虫能够处理文档,甚至是数据库。爬虫将收集所有过

7、滤字符格式的文档,从全文数据提取文本。每个文档都与全文文件有对应关系,包括标题、网页的URL、大小、类型和其他属性以及文本内容。  网络爬虫面临的问题  截止2016年1月底,中国互联网上网页数量超过1500亿个,静态网页数占%,动态网页数占%,其中有大量页面是重复的,每个网页的字节数大约为50KB。关于网页数量和字节数的增长率,2016年较之2016年增幅分别为%和%。动态网页的存在,客户端、服务器端脚本语言的使用,使得指向相同页面的URL数量出现爆炸式增长。  以上特征使得网络爬虫面临一定的困难:首先,海量的网页信息使得网络爬虫在有限的时

8、间内只能爬行少量网页;其次,动态网页的一些技术原因使得网络爬虫无法爬行它们。仅在中国就存在如此之多的网页,假如考虑全世界的网页,那么,世界上是不存在能索引互联网上所

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。