关于网络信息自动采集技术难点和其解决办法探究

关于网络信息自动采集技术难点和其解决办法探究

ID:5935583

大小:30.00 KB

页数:8页

时间:2017-12-29

关于网络信息自动采集技术难点和其解决办法探究_第1页
关于网络信息自动采集技术难点和其解决办法探究_第2页
关于网络信息自动采集技术难点和其解决办法探究_第3页
关于网络信息自动采集技术难点和其解决办法探究_第4页
关于网络信息自动采集技术难点和其解决办法探究_第5页
资源描述:

《关于网络信息自动采集技术难点和其解决办法探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、关于网络信息自动采集技术难点和其解决办法探究  摘要近年来,科技迅猛发展,世界已经进入了数字化、信息化的时代。网络作为当今世界上最大的信息库,逐渐成为人们获取信息的最重要途径。因为网络上的信息资源是海量的、动态的、半结构化的,而且并没有统一的组织和监管机制,如何快速地、准确地从超大量的信息中采集所需信息已然成为网络使用者迫切需要解决的问题。由此,针对目前系统中信息采集能力、可操作性和可扩展能力等存在的问题,介绍了网络信息自动采集技术的相关基础概念及原则,研究并归纳了网络信息自动采集技术的几种解决方案,分析网络信息自动采集现阶段存在的主要难点,立足网络信息化全局,就如何实现最优质

2、信息采集使用正确的信息采集器提出建议。关键词网络信息;信息自动采集;技术问题难点;优化解决方案;采集器中图分类号TP39文献标识码A文章编号1674-6708(2013)87-0204-020引言8在利用信息时,往往需要结构化的信息以便检索和分类,然而网页上的信息基本上是非结构化的,网络信息自动采集技术以网络信息的挖掘引擎作为基础,可以在很短的时间里,智能化、自动化地把需要的信息从不同站点上采集出来,并在进行编辑、分类、格式化等等自动操作后,尽快地把信息及时发布到自己的站点上去,从而节省了人力物力,同时提高信息的及时性。1网络信息自动采集的原则1.1实时性原则指能及时地获取所需

3、要的信息,简而言之有三层主要含义:首先是指信息从在网络上出现到被采集到的时间间隔,间隔越短就代表着采集越及时,理想情况是在信息出现的同时采集到;其次是指在临时急需某一信息时能够快速地采集到该信息,也叫及时;再次是指某一采集计划所需要的全部信息所花去的时间,花费时间越少谓之越快。实时性原则保证信息采集的时效。1.2完整性原则信息在采集后要与原信息在内容与格式上完整不缺失,信息采集过程有一些计量标准,符合标准则能反映事物全貌的信息,完整性原则在信息利用领域的一个重要基础。1.3可靠性原则只有当信息来源是可靠的,信息是真实可靠的,采集到的信息才能反映真实的情况,可靠性原则也是信息采集

4、的基础原则。81.4准确性原则指采集结果能准确贴合实际的工作需求和应用需要,采集结果的表述准确准确精准、没有谬误,采集结果在采集范畴之内贴合于企业企业或组织自身,关联度愈高,就代表准确性愈强,适用性就愈强。准确性保证了信息采集结果的价值。1.5易用性原则指采集到的信息要严格结构化,便于利用。2网络信息自动采集的技术方案网络信息采集技术的实现方法很多,但是可以大致分为计算机系统信息自动采集技术和人工系统信息采集技术。人工系统信息采集技术的方法主要有直接观察法、资料查询法及社会调查法三种。其中社会调查法又可以分为典型调查法、普遍调查法、抽样调查和个别访谈法。平日里所说的信息采集技术

5、一般都是指基于计算机系统的信息采集技术。基于计算机系统的信息自动采集技术可分为以下8种:1)网络信息采集技术8基本流程[1]:先获取网页的URL地址,再识别URL地址的主机,得知主机后向该主机发送请求,然后与主机构造TCP协议连接,再后依据http协议向主机发出获得URL地址的命令,从主机接受并读取服务器的响应,从而读取URL地址对应的文件的信息,之后将文件的信息写入本地结构化数据库,最后释放TCP协议连接。2)网络信息挖掘技术数据挖掘[2](DataMining)是从互联网上大量的、残缺的、模糊随机的数据中将有价值的信息和知识提取出来的过程。3)网络信息资源与实时推送技术一种

6、能够及时推送的技术,再确保数据及时全面的同时也能方便各种领域的用户查询。4)网络信息分析和过滤技术网络信息分析和过滤技术所控制的采集过程,可以高效地去掉无关信息和有害信息。5)RSS推送技术RSS[3](ReallySimpleSyndication)推送技术是最近兴起的,使用RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。6)网络信息整合技术建立信息搜索系统或文献数据库的途径之一。利用科学的自动分类技术,以主题、题材、关键词不同进行

7、差异化分类,对源信息进行整合,整合后即可建立再利用机制。87)开放链接技术开放链接技术[4](OpenURL)是一种解决不同的数字资源系统互操作、基于Web使用指定语法传送元数据的技术标准,还是一种附带有元数据信息和资源地址信息的可运行的URL。可以激活许多其他新的、可扩展的开放特性,已逐渐成为数字图书馆应用领域的热门技术。8)基于OAI协议的信息采集技术OAI协议[5](OpenArchivesInitiativeProtocolforMetadataHarvesting),是一种独立于应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。