搜索引擎的研究分析与实现

搜索引擎的研究分析与实现

ID:35185238

大小:4.06 MB

页数:60页

时间:2019-03-21

搜索引擎的研究分析与实现_第1页
搜索引擎的研究分析与实现_第2页
搜索引擎的研究分析与实现_第3页
搜索引擎的研究分析与实现_第4页
搜索引擎的研究分析与实现_第5页
资源描述:

《搜索引擎的研究分析与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10285学号:201343270巧A襄审、考SOOCHOW,UNIVERSITY.IBI^WBt搜索引雜研究分析与实现胃IH—luAnalsisresearchandimplementationofsearchenginey研究生姓名巧东东'■H指磯I!巾齢陈建明M^专业名称计算机技术H研究方向智能信息处理所在院部苏州大学计算机科学与技术学院论女提交日期2016年9月苏州大学学位论文独创性声明

2、本人郑重声明,独立;所提交的学位论文是本人在导师的指导下进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作。出重要贾献的个人和集体J,均己在文中^本人承担本!^明确方式标明声明的法律责任。,论文作者签名:日期:戶h.苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,良P:学位论文著作权归属苏州大学。本学位论文电子文档的内容

3、和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中也、中国科学技术信息研究所版社)、(含万方数据电子出中(国学术期刊)光盘版电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅,可和借阅W采用影印、缩印或其他复制手段保存和汇编学位论文,可ut将学位论文的全部或部分內容编入有关数据库进行检索。涉密论文〇本学位论文属年解密后适用本规定。_月^^非涉密论文0V义车论文作者签名:y日期:个GI乂八仁:导师签名日期:个搜索引擎的研究分析与实现中文摘要搜

4、索引擎是一个对因特网上的网络资源进行搜索抓取和分类,并储存在网络数据库中提供给用户查询使用的系统,它的主要工作原理是利用网络爬虫程序通过一定的策略不断的在互联网上抓取页面信息,再经过分析处理之后,最终把抓取的关键数据进行索引存储,当用户进行检索时,它通过一定的排序方法最终把相关结果展示给用户。本文简单介绍了搜索引擎的发展史、分类、各部分组成以及其工作原理,本人在对其进行深入的研究和分析后,最终利用Java开源架构Lucence实现了搜索引擎程序的编写,其中主要包括爬虫、分词索引、搜索排序三大部分。编写网络爬虫程序对网页数据进

5、行抓取并分析后存储,而Lucence则负责建立索引,当前台用户进行搜索时,搜索的字符串会经过Paoding分词器分词之后重新组成新的查询串,Lucence利用这个新的查询串就可以在索引库中比较方便的索引,从而快速查找到相关数据。而此时得到的数据,是根据索引的相关度排序的,那么一些用处不大的数据,就有可能排在最前面,所以此时还必须经过一个自定义的排序处理,本设计采取的方式,是对索引到的前500条数据进行重排序,把认为对用户最有效的信息排在最前面,返回给用户。【关键词】:搜索引擎;网络爬虫;索引;排序;Lucence作者:汤东东

6、指导老师:陈建明IAnalysisresearchandimplementationofsearchengineAbstractSearchengineisoneoftheInternetinformationresourcesclassificationandsearch,andstorageexistsinnetworkdatabaseforuserstoquerythesystem,itsmainprincipleisusingwebcrawlersbycertainstrategiestocrawlthewebpag

7、edata,againafterprocessingandanalysis.Finally,thecaptureofkeydatastoredintheindex,whenuserstosearch,itthroughsomesortofmethodeventuallyrelatedresultispresentedtotheuser.Thispaperbrieflyintroducesthesearchengine'sdevelopmenthistory,classification,componentpartsandit

8、sworkingprinciple,Iafterin-depthresearchandAnalysisonit.relyonJavaopensourceframeworkLucencethesearchengineprogramwritten,includingcrawling,index

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。