浅谈网页长期保存的策略与方法探讨

浅谈网页长期保存的策略与方法探讨

ID:9539682

大小:54.00 KB

页数:4页

时间:2018-05-03

浅谈网页长期保存的策略与方法探讨_第1页
浅谈网页长期保存的策略与方法探讨_第2页
浅谈网页长期保存的策略与方法探讨_第3页
浅谈网页长期保存的策略与方法探讨_第4页
资源描述:

《浅谈网页长期保存的策略与方法探讨》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、浅谈网页长期保存的策略与方法探讨 摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。  关键词:网页;长期保存;策略;方法    网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网

2、页对于网络信息而言,具有非常重要的作用。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。    1 网页长期保存的必要性    1.1 网页数量骤增  据中国互联网络信息中心(NIC)的统计,自2003年开始,中国的网页规模基本保持翻番增长,2009年网页数量达到336亿个,年增长率超过100%(见图1)。而Google在2008年宣称,其索引的网页数量已经突破1万亿,并且其数量还在以每天数以亿计的速度在增长,“互联网上的网页已经多得无法计

3、算了”。大量网页的背后是海量的信息资源,它们不仅是人类知识的宝库,也是人类记忆的财富。我们有必要将其妥善保存。br>      1.2 网页信息变化快  网页信息的变化体现在两个方面:  一是网页内容的变更,通常是管理员定期或不定期地更新网页,以便增加新信息或修改之前的信息。这并不会引起网页数量的变化,但是一定程度上更新了网页的信息,因此原网页的部分信息可以认为是丢失了。  二是网页的新增或删除,通常由网站管理者新增某些网页或者删除某些网页。一旦删除,该网页便从互联网上消失,其他用户无法再访问。网页的

4、增删会引起网页数量的变动。  相关学者研究发现,在6个月内近50%的网页会发生变化,68%的网页1年内将被从网上移除。  而INERVA项目:始于2000年,由国会图书馆负责,其目的是评价、选择、收集、编目以及保存数字材料,为将来的研究者提供利用。项目主要收集互联网上重要的政治事件、重特大事件,采集工作由网络机器人完成,并将结果分专题进行收集和存储,目前国会图书馆已经完成13个专题的收集。  2.3 美国的IA项目:开始于1996年,由非营利组织InterArchive发起,其目的是建成“网络图书馆”,存储

5、历史上曾经存在过的数字资源,使现在和以后的学者和研究人员能够永久访问。其收集的内容涉及音频、视频、软件、文本以及Web等领域,采用网页快照的方式,通过网络机器人程序自动抓取或接收Alexa公司和其他机构的捐赠。到目前共收集了自1996年以来的1500亿个网页、470709个音频记录以及1859523个文本等。  2.4 英国的UKWA项目:开始于2004年,大英图书馆和其他法定送存图书馆共同合作,主要收集英国范围内的网站。其目标是收集、保存重要的英国网站并提供长期利用,采取定期回访网页并保存快照的方式。自2

6、004年以来已收集了上千个网站。  2.5 奥地利的AOLA项目:开始于1999年,由奥地利国家图书馆与维也纳科技大学软件学院合作,主要收集奥地利地域范围内和关系到本国利益并且是公开的网站,其目标是保存奥地利本国网络空间中的资源。使用网络机器人自动获取并对网站进行定期快照的方式。到2005年,共采集了来自45000个网站的280万网页,约488GB的数据。  2.6 芬兰的EVA项目:开始于1997年,由芬兰国家图书馆领导,主要采集芬兰地域内的、当前公开的静态网页和在线材料。其目标是规范筛选电子文件的标准,

7、建立一个长期可读取的档案馆。采用地域收集的方法,定期扫描并存储全芬兰的网络空间。1998年第一次怏照,从约7500个芬兰网站上获取约180万个文件。 2.7 法国的BnF项目:开始于2001年,法国国家图书馆对法国范围内的所有网站进行收集,采用自动获取和手工方法相结合的采集策略。其目标是存储和管理网络4.3 网页收集阶段  网页收集是指利用软件工具自动获取或者人工的方式收集网络上的网页信息。自动检索和获取网页的软件一般称为“网络爬行器”或“网络收割机”,这种软件功能非常强大,能在预定的时间和范围内收集所有网

8、页并记录下网页基本信息。网页收集一般有两种方式:  4.3.1 保存网页。就是将需要归档的网页复制一份完全一样的,包括文字、图片、声音、视频等,这种方式花费的时间较多,用来保存网页的存储空间要求也很高,但无疑这是最完善的保存网页的方法。  4.3.2 保留快照。网页快照也是网页的一个备份,但大多是文本形式的,或者是只保留了网页的html部分,因此使用这种方法比较便捷,同时也很经济。但缺点是可能无法保存网页的全部内

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。