【硕士论文】_垂直搜索引擎的设计与实现.pdf

【硕士论文】_垂直搜索引擎的设计与实现.pdf

ID:32021269

大小:1.94 MB

页数:59页

时间:2019-01-30

【硕士论文】_垂直搜索引擎的设计与实现.pdf_第1页
【硕士论文】_垂直搜索引擎的设计与实现.pdf_第2页
【硕士论文】_垂直搜索引擎的设计与实现.pdf_第3页
【硕士论文】_垂直搜索引擎的设计与实现.pdf_第4页
【硕士论文】_垂直搜索引擎的设计与实现.pdf_第5页
资源描述:

《【硕士论文】_垂直搜索引擎的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、西北工业大学硕士学位论文第一章绪论第一章绪论1.1研究背景随着信息技术的快速发展,互联网得到了飞速的发展,成为人们学习、工作、生活中的最重要的知识和信息来源。根据CNNIC(中国互联网络信息中心)2006年1月17日发布的<中国互联网络发展状况统计报告》“1,截止到2005年12月31日,我国的网民总人数为11100万人,上网计算机总数已达4950万台,我国网站数为694,200个.目前,整个互联网中文网页数超过20亿,Google收录了5亿中文网页,百度收录了8亿中文网页嘲.Internet上的信息资源随着Internet的发展

2、呈现出以下特点;l、信息量大而且分散2、自治性强3、信息资源多种多样4、不一致和不完整为了获取所需的信息,用户必须借助一定的工具,他们通常使用以下两类网站:一第一类是分类目录式搜索引擎,其典型代表是Yahoo。它主要采用人工方式或半自动方式收集和整理Internet上的信息,根据所搜集网页的内容再手工将其网址分配到所采用的分类主题目录的不同层次级别类目之下。用户查询时,通过逐级层层浏览这些类目,寻找自己所需的网址信息。这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少等。第二类是基于查

3、询串方式的搜索引擎(也称为通用搜索引擎),这类搜索引擎指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表。这类通过关键词匹配实现查询的自动更新的搜索引擎优点是涵盖的网页数量巨大,因为它拥有基于关键字的全文索引,它为所有网上冲浪的用户提供了一个入口,所有的用户都可以从搜索引擎出发到达自己想去的网上任何地方。搜索引擎对用户是

4、这样的重要,成为了用户上网的常用服务,根据《中国互联网络发展状况统计报告》“1,用户经常使用的网络服务是:浏览新闻(67.996)、搜索引擎(65.7%)、收发邮件(64.7%)、西北工业大学硕士学位论文第一章绪论即时通讯(41.996)、论坛/BBS/讨论组等(41.6%)。然而,事实也已经证明单纯依靠搜索引擎提供的分类目录和关键词检索,搜索效果并不理想。分类目录所涵盖的网页资源需要人工编辑,因此数量有限。而对于关键词检索,虽然搜索引擎技术几经完善,但是信息的查全率和查准率还是相当低下,特别是较低的查准率使得用户得到搜索结果后还

5、需进一步挑选,智力负担相当重。即使比较著名的诸如Google等搜索引擎对检索结果采用了基于超链接的相关度排序,但它们主要依据的也只是网页被其他网页认可的程度,并非网页与用户真实检索需求之间的关联程度,同时结果中包含了大量与用户查询请求不相关的文档,用户在返回的动辄成千上万条记录中寻找相关文档犹如大海捞针。造成这种现象的原因很多,从主观上讲,对于分类目录,用户通常并不一定清楚搜索引擎提供的分类目录是否真正包含自己所需的内容,而且缺乏必要的分类知识也会使得用户难以在庞大的、经常动态调整的类目间准确定位。1。而对于关键词检索,用户通常键

6、入的词语是非常简练的,而且也无法保证是否与命中记录存在关系。从客观上讲,搜索引擎技术还有相当大的完善空间。目前的技术在提高网页查全率和相关度排序上已经达到了较高的水平,但是对于自动网页分类和聚类、基于概念的检索词匹配等方面仍然要求技术突破。除了这些技术原因外,产生目前问题的原因还包括一些设计方面存在的缺陷。如搜索引擎系统与用户的接口设计存在障碍,让彼此难以通过现有的界面进行良好的表达和反馈,用户无法有效地根据搜索引擎的提示调整检索策略,搜索引擎也无法以一种方便用户操作的合理方式来展示查询结果。作为一项直接面对普通用户的检索技术,搜

7、索引擎要想实现检索的成功,一定要能在用户与检索系统之间建立良好的沟通渠道。这个渠道能使用户准确表达自己的检索需求,同时系统能够准确理解用户的检索意图,并且能以一种用户感觉良好的方式显示结果。但事实上,孤立地使用单一的分类目录和关键词检索,往往都使得这种愿望难以实现。在现阶段技术水平下,要提高搜索引擎的检索效果,必须从搜索引擎的基础收录入手,并采用分类目录和主题检索相结合的方法。1.2搜索引擎的现状分析搜索引擎起源于传统的全文检索理论,即通过扫描每一篇文档资料中出现的词语,建立以关键词为单位的索引文件,并通过界面让用户使用关键词进行

8、检索。从深层次来看,搜索引擎的出现有技术的必然性,主要原因在于快速发展的网络提供的资源极大地超出了人们能够自然有效地利用传统方法进行管理的能力范围。传统的管理信息资源的方法主要基于人们对信息的再消化、再理解,以信息西北工业大学硕士学位论文第一章绪论

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。