网络资源的自动获取识别归档技术研究

网络资源的自动获取识别归档技术研究

ID:37172546

大小:590.89 KB

页数:5页

时间:2019-05-21

网络资源的自动获取识别归档技术研究_第1页
网络资源的自动获取识别归档技术研究_第2页
网络资源的自动获取识别归档技术研究_第3页
网络资源的自动获取识别归档技术研究_第4页
网络资源的自动获取识别归档技术研究_第5页
资源描述:

《网络资源的自动获取识别归档技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、编者按:清华同方光盘股份有限责任公司为发展我国“网络资源与建设”,在理论和实践上推动网络资源与建设的发展与应用,以进一步加快图书情报技术网络化发展进程愿与本刊合作,协办本栏目的工作,为此编辑部代表广大读者对清华同方光盘股份有限责任公司支持我国图书情报领域计算机网络资源与建设发展的举措,表示衷心的感谢!网络资源的自动获取识别归档技术研究3唐光前(汕头大学图书馆汕头515063)【摘要】论述了研究网络资源的自动获取识别归档技术的必要性,自动获取识别归档网络资源的思路及实现过程,实现过程中可能遇到的问题及解决办法等。最后还讨论了国内高校图书馆在收集整理网络资源建立网络资源导航库方面存在的问题。【

2、关键词】网络资源获取技术识别技术归档技术C#【分类号】G250.73ResearchonAutomaticallyObtaining,IdentifyingandSavingTechnologyforInternetResourceTangGuangqian(LibraryofShantouUniversity,Shantou515063,China)【Abstract】Inthispaper,theauthorfirstbrieflydiscussesthenecessityofresearchonautomaticallyobtaining,identifyingandsavingte

3、chnologyforinternetresource,thenmainlyelaboratestheprincipleandimplementofautomaticallyobtaining,identifyingandsavinginternetresource,finallydiscussestheexistingproblemsthatChineseuniversitylibraryisfacingintheprocessofconstructinginternetresourcesubjectguidedatabase.【Keywords】InternetresourceObta

4、intechnologyIdentifytechnologySavetechnologyC#1研究网络资源的自动获取识别归档技术的必要性目前,大多数高校图书馆都开展了网络资源的收集整理工作,如由CALIS中心组织,48个“211工程”立项高校图书馆参加共建的重点学科导航库项目,已完成213个重点学科导航库建设,共收录了6万多个比较重要的学术网站1。笔者有幸参加了该项目,在近两年的工作实践中,总体感受是:大家对于收集整理网络资源的重要性的认识是一致的,对这项工作的热情很高,投入的人力很多,如深圳大学图书馆就投入了十几个人,但是获取识别归档网络资源的手段并不高明,方法比较原始,以致绝大多数高校

5、图书馆的网络资源的收集规模不大,多数在1000条左右,达到上万条的只有清华大学图书馆、深圳大学图书馆、汕头大学图书馆和电子科技大学图书馆等少数几家。问题出在什么地方?笔者认为,绝大多数高校图书馆对网络资源的自动获取识别归档技术研究不够。其实,实现网络资源自动获取识别归档的意义不亚于计算机编目取代手工编目的意义。我们知道,网络资源与书本式实物资源存在着很多区别。其一就是前者的数量惊人,且增长迅速。著名的Google搜索引擎收集了30亿张网页2。但是据发表在《自然》杂志上的一份研究报告称,没有一个搜索引擎可以覆盖网络资源总量的16%,并且随着网络资源迅速增长,这个比例还会下降。可见,网络资源是

6、多么的丰富。面对如此浩瀚的资源,我们肯定不能采用现有的图书编目手段加以处理,因为速度太慢,一天最多只能处理60条左右。我们肯定也不能采用现有编目软件对网络资源进行处理,因为现有的编目软件的处理对象是静态的图书,在软件设计时不可能将网络资源的特点考虑进去,况且图书的著录项目与网络资源的著录项目区别很大,比如两者的著录重点是不一样的,对网络资源进行收集整理时,着重著录标题和网址。这就要求我们除了对网络资源的特点进行研究之外,还需要对网络资源的收稿日期:2002-10-08收修改稿日期:2003-03-103本文得到CALIS华南地区中心组织的“海外华商经济文献数据库”项目资助。网络资源与建设清

7、华同方光盘协办获取方式、识别方式和归档方式等进行深入研究,找到一种既能够保证著录速度快捷又能够保证著录项目(即字段)合理的整理方式。网络资源与书本式实物资源的第二大区别是,前者存在Internet中,而且是动态的。Internet中的资源是虚拟的,是通过其对应的网址来揭示的,而网址是可变更的,特别是某些专业性很强的个人网站,其网址的变更性更强。有过上网经验的人对这一点应该深有体会。对于这种动态资源,其收集整理的工作量远远

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。