面向行业搜索引擎的研究与实现

面向行业搜索引擎的研究与实现

ID:27195450

大小:2.10 MB

页数:80页

时间:2018-12-01

面向行业搜索引擎的研究与实现_第1页
面向行业搜索引擎的研究与实现_第2页
面向行业搜索引擎的研究与实现_第3页
面向行业搜索引擎的研究与实现_第4页
面向行业搜索引擎的研究与实现_第5页
资源描述:

《面向行业搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学硕士学位论文1绪论1.1课题背景因特网信息资源就像一个浩瀚的资料库,变化频繁并且内容丰富,作为现今主要的信息存储和传播手段,是一个多语言、多类型的信息库。但是因特网是对全球用户开放的分布式网络,网上的信息资源URL链接地址经常变换[1],网页内容的发布完全是用户按照自己的意愿随意发布,这样产生的网页信息内容缺少筛选和管理,权威信息和业余网页混杂在一起,信息质量参差不齐,整体状态处于无序,因特网信息量爆炸,造成了“数据爆炸,信息匮乏”的局面[2]。根据Internet的发展速度和规模来看,不可能

2、有哪一个搜索引擎能索引所有的网页信息和文档[3]。清华大学的IT可用性实验室于2006年10月发布的报告表明,目前世界上最大的中文搜索引擎百度对中文网页文档的索引覆盖只能达到对互联网网页的32.35%。并且,不一样的搜索引擎的搜索结果集的交集比例只有15-30%。仅仅对一次简单的检索请求,主流的搜索引擎通常会将数万计的结果返回到用户,在返回的结果集中混有无用信息和有用信息,通常不属于用户所需要的结果项所占有的比率占到75%之巨[4]。伴随互联网中网页资源文档信息的快速增长,主流搜索引擎的很多缺点暴露出来,

3、并且制约了主流搜索引擎的发展,阻碍用户快速、准确的获得网络资源文档,主流搜索引擎存在的不足有:搜索引擎有效网页文档覆盖率不高,噪声信息量比例大,查准率和查全率较低。单个搜索引擎通常只能覆盖所有互联网网页文档的30%以下,通过切换几个搜索引擎可以少幅度提高查询率,但是需要很高的查询成本[5]。搜索引擎检索结果取决于系统使用的信息采集策略、索引技术和检索排序算法,覆盖的网络信息资源也不相同,主流的搜索引擎各自使用不同的索引技术、信息收集技术和关键词查询技术,使得它们在各自搜索的信息资源在内容上、搜索范围上有相

4、当大的差异,并且由于各个商业搜索引擎水平不同,给用户检索和筛选结果造成诸多的限制[6]。1.2课题目的及意义以上阐述的关于主流搜索引擎的不足,主要是因为主流搜索引擎自身的技术瓶颈制约了搜索引擎的进一步发展,一方面硬件制造尤其是磁盘技术长时间都没有突1华中科技大学硕士学位论文破性的发展,计算机自身的I/O成本居高不下,另一方面互联网的爆炸式发展,要求主流搜索引擎在满足最大范围用户面对基础上要尽可能的大范围覆盖网页资源信息,这两方面的矛盾极大的制约了主流搜索引擎的进一步提高。所以在用户群固定,用户兴趣爱好和知

5、识背景大致相同的时候,面向行业搜索引擎为不同用户群使用个性化定制搜索引擎可以在解决上述主流搜索引擎的不足。面向行业搜索引擎作为主流商业搜索引擎的强大补充,很大程度上完善了主流搜索引擎的短处。面向行业搜索引擎作为一个独立的系统为不同用户群体提供搜索查询服务,用户通过注册等方法手段获取用户的兴趣、爱好和知识方向等个性知识,面向行业搜索引擎会为每个用户提供不同的服务:可以记录用户感兴趣的行业信息,包括用户对感兴趣行业内的厂商以及厂商旗下品牌的信息;可以为特定用户提供定制时间区间内厂商或者品牌相关统计报表信息

6、,以及网络热点新闻资讯定制推送服务。当获知用户兴趣方向和个性知识后,可以根据用户提交的关键词信息检索后台索引库文件,搜索引擎会根据用户的个性知识按照内置知识计算策略,将提交的关键词转换生成特定的检索关键词集合,然后根据用户使用上下文信息的属性权重信息对最后的检索结果集进行排序[7],最后根据用户设定的页面样式将结果集显示在客户端中。在提供给用户查询的接口界面中屏蔽后台繁琐的检索系统实现,最大限度的简化整个查询过程,减少了用户的查询负担和查询成本,尽可能提升检索效率,并且还提升检索的查准率和查全率,降低用户

7、查询成本,以及提高相应系统评价指标参数。1.1本文主要分析工作本文阐明了主流搜索引擎的现状和不足,说明搜索引擎信息索引相关算法技术基础,并对搜索引擎的索引文件存储组织格式和数据结构进行了深入分析和分析,描述了面向行业搜索引擎相关机制流程和搜索引擎处理流程,并根据面向行业搜索引擎特定的运行机制,对面向行业搜索引擎的信息采集策略、搜索引擎性能、索引存储信息和结合用户知识模型的排序算法进行了深入分析,对其中关键技术算法展开详细讨论。本论文还阐述了面向行业搜索引擎系统的构成,并详细描述了系统设计和实现的整个过程。

8、本文围绕面向行业搜索引擎的实现过程,对面向行业搜索引擎的相关技术和系统的整体框架进行了详细阐述,主要进行了以下分析工作:2华中科技大学硕士学位论文首先,具体讨论了面向行业搜索引擎实现相关的关键技术点,包括信息索引技术,中文分词等关键知识点;其次,详细剖析了主流商业搜索引擎的多个不足点,提出了基于用户个性知识的面向行业搜索引擎,详细阐述了该系统的框架结构,并且在结合用户个性知识模型和主流搜索引擎的PageRank排序算法对检索结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。