【硕士论文】搜索引擎排序算法研究.pdf

【硕士论文】搜索引擎排序算法研究.pdf

ID:32033945

大小:1.62 MB

页数:41页

时间:2019-01-30

【硕士论文】搜索引擎排序算法研究.pdf_第1页
【硕士论文】搜索引擎排序算法研究.pdf_第2页
【硕士论文】搜索引擎排序算法研究.pdf_第3页
【硕士论文】搜索引擎排序算法研究.pdf_第4页
【硕士论文】搜索引擎排序算法研究.pdf_第5页
资源描述:

《【硕士论文】搜索引擎排序算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要搜索引擎是现在最常使用的互联网应用之_.,.随着科技的发展,原先决定搜索引擎命运的网页覆盖率问题已经逐步得到解决。如何在这么大的资源库中,快速找到并且返回用户真正需要的信息已经成为搜索引擎研究重点。一个好的排序算法可以在为搜索引擎公司带来丰厚利润的同时,大大节约用户查找信息的时间。本文在充分研究搜索引擎排序算法的基础上,提出了一种利用浅层语法分析和用户兴趣分类对搜索引擎的排序进行改进的方法。在用户提交查询以后,系统首先利用条件随机场模型对用户的问句进行浅层语法分析,得到各个关键字在问句中

2、的角色,从而重新分配关键字之间的权重。同时,记录用户的浏览信息,分析出用户的长期兴趣,短期兴趣和时段兴趣,影响网页的排序结果。实验证明,上述方法可以有效的改善搜索引擎排序策略。关键词:排序算法;浅层语法分析;条件随机场;兴趣分类第1章引言1.1选题背景随着科技的发展,互联网的时代已经到来,信息技术在发生着巨大的变化。互联网上的信息每年都以几何级数在增长。2007年7月18日,中国互联网络信息中一t=l:'(CNNIC)在京发布第20次《中国互联网络发展状况统计报告》【11。报告显示,截止2007

3、年6月30日,我国网民总人数达到1.62亿,半年来平均每分钟就新增近100个网民,半年的增长接近去年全年的增长量,互联网普及率也达到了12.3%。目前我国上网计算机数达至JJ6710万,比2006年末增长了770万台。截至2007年6月,中国网站数量已经达到131万个,半年内增加了47万个,比2006年同期增加了52万个,年增长率达至1J66.4%。如此庞大的一个网络规模,对于我们可以说既是机遇,又是一个巨大的挑战。不可否认,它是一个非常巨大的知识宝库,它包含着人们需要的各种各样的知识。但是对于

4、我们来说,如何在这么大的信息库中找到我们需要的信息将是一个更大的挑战。搜索引擎正式在这样的背景下,应运而生的。通过搜索引擎,用户可以迅速在网络的信息海洋中定位自己要查找的信息。《报告》显示,搜索引擎的网民使用比例已达74.8%,成为仅次于新闻的网络第二大应用。但是,在与互联网发展成熟的美国(91%)相比,搜索引擎还有非常大的发展空间。1.2搜索引擎的发展历史现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生AlanEmtage发明的Archie。虽然当时WorldWideWeb还未出现,

5、但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanArchieI作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达SystemComputingServices大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索第1章引言引文件外,已能检索网页。Lycos(CamegieMellonUniver

6、sityCenterforMachineTranslationAnnouncesLycos)是搜索引擎史上又一个重要的进步。CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的LycosiE式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量

7、。从此搜索引擎进入了高速发展时期。雅虎,Excite,InfoSeek等一批真正的商业化的搜索引擎开始投入使用。搜索引擎的技术也随着商业的驱使不断发展起来,搜索引擎包含的信息量也随着技术的更新而不断增大。1998年诞生的Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,再一次永远改变了搜索引擎的定义,成为当今世界上搜索引擎市场占有率最高的搜索引擎。【2】在国内,搜索引擎技术也不断发展。北大

8、天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的却搜索功能。2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.co

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。