浅谈信息搜集

浅谈信息搜集

ID:44628625

大小:34.50 KB

页数:4页

时间:2019-10-24

浅谈信息搜集_第1页
浅谈信息搜集_第2页
浅谈信息搜集_第3页
浅谈信息搜集_第4页
资源描述:

《浅谈信息搜集》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈信息搜集浅谈信息搜集20世纪以来,人类创生的信息量高速增长,浩如烟波。如何从这海量的信息里找出所需信息就成为信息搜集的重任。伴随着计算机进入多媒体时代,信息科技也步入了多媒体发展时期。手工搜集靠手翻、眼看、人脑判断的搜集方式已难以全而适应当今信息的发展,计算机信息搜集必然的提到了应用与发展阶段,以Internet为代表的全球化、网络的实际应用史进一步推动了这一发展,这既是对手工搜集的扩展,也是时代的需要。在当今资木资源和数字资源并存的信息时代,作为信息资源拥有者和管理者,既需要了解和掌握传统手工搜集的方法,也需要熟悉和掌握计算机搜集,尤其是网络信

2、息搜集的理论和技术,这是信息时代対工作者信息索质的必然要求。随着信息技术的发展,搜索引擎逐渐在信息搜集中扮演着越來越重要的角色,它在人类与信息之间建起一座方便的桥梁。搜索引擎虽然表现为各种不同的形式,但其最根本是由信息搜集系统、索引数据库和查询接口三部分组成。下而就分别详细描述不同形式搜索引擎的组成:1)H录导航搜索引擎的信息搜集系统、索引数据库和查询接口冃录导航式搜索引擎的信息搜集系统主要是由人工來完成,搜索引擎的标引专家依靠于•工來搜寻不断出现的新的网站,给每个网站一个标题和人概的描述,将其放入相应的类体系屮。在页面上表现为每个类口路径下排列着相

3、关的网站,所以也叫LI录导航。冃录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类冃、超文本链接(URL)组成倒排文档。冃录导航式搜索引擎提供两种査询接口形式,一•种是在网页上用户可以直接点击树状忖录,一层一层的点击查看下去,直到找到用户需求的和关类H下的网站信息。另-•种查环接口就是关键词检索,用户直接在搜索框中输入所需信息的关键词,服务器接受命令后就会去索引数据库屮匹配关键词,返冋查询结果。因此可以看到,tl录导航实现的原理比较简单,主耍是编制tl录导航页面和设计简单的检索功能。2)网页搜索引擎的信息搜集系统、索引数据库和查询接口网页搜索引

4、擎完全体现了现代先进的网络技术。网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人丁处理。网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文木链接确泄新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部冇用信息,并将抽取的信息记录到索引库中是关键。网页搜索引擎的的索引数据库建立的策略很人程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,耍针对实际需要确定索引

5、数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一•定的圧缩策略,对索引库进行有效的压缩,以提高检索的速度。索引库的具体结构在下文中会有详细的描述。网页搜索引擎一-般只提供关键词检索这一种检索接口形式。为了方便用户的检索,网页检索的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。网页搜索引擎的检索接口述担负着检索结果相关性排序等关键技术的实现。3)随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等。1999年,许多

6、经营图库的公司逐渐将其图库上网,并使得内容可以被搜索利川。图像搜索技术可以分为基于文字的搜索与基于内容的搜索。基于文字的搜索是利用图像的文字描述寻找需要的图像;基于内容的检索是分析图像屮颜色、纹理分布等特征,寻找相关的图像。有一种做法是用户首先点选画而中随机产生的图片中比较符合需求的图片,找到与用户选择较为相似的图片,川户再从屮点选更为接近耍求的图片,经过数次互动后,川户可以愈来愈接近想查找的图片。搜索引擎并不真止搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上儿千力到儿十亿个网页并对网页中的每一

7、•个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户査找某个关键词的时候,所有在页面内容屮包含了该关键词的网页都将作为搜索结果被搜岀來。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度髙低,依次排列。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL.AnchorText.甚至链接周围的文字。所以,冇时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒口”时也能找到网页A。而冃,如果有越多网页(C、D

8、、E、F,,,,)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F,,,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。