搜索引擎理论与技术研究

搜索引擎理论与技术研究

ID:35183833

大小:5.00 MB

页数:71页

时间:2019-03-21

搜索引擎理论与技术研究_第1页
搜索引擎理论与技术研究_第2页
搜索引擎理论与技术研究_第3页
搜索引擎理论与技术研究_第4页
搜索引擎理论与技术研究_第5页
资源描述:

《搜索引擎理论与技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、,’.,’?‘5.s',扛‘.,這、、\‘‘巧食"一}-声、.r‘,/.匈,r4/,‘羣..r>瓷.‘、:;’,含,v4?,>;K再;中,;-:矣:,V,苗7!.V.>代§密级V'p气:x:?.;:.£,:,:;,.-'?<、种r>-.3i.J卢:K.y.;Vr/;rw'Hr謂rS/.J.貨窒/.‘-画-r7,片‘ivr、L袭驗-;海,-¥>、.:..,x.,^f」文fc:‘議^?為i^緣<、,4M?為j、;i户P:4l*乂二#V>,^皮巳緣化巧女。A拉梦吝^.:\节巧

2、:..W.、;.巧、巳‘:;.1/:空、>;.>>气.>/>‘巧、/契‘:t/_:古,:?.養.,;?:;",,'茲.古心,?,!!讀:,-.?盛.;./,,’s-,;‘"'-.'巧Ie-;蘿>;:;;’V羞パ,.,^1;之.;?*;,,善;‘r-,V...?-^.踩、八…舞.苯b加目;逝劍擎论城棚究穿乂,f,/‘,..,产达.;.'苗\;-,,\\群参;节乂睾中.,r聲義、‘;.,'片播i:?.;,C培..-r;\莫義V.。::-..今yV,

3、:.、.、巧.i.4尝-号’^丽W今-?J扭4..--早心..,v中'/4校名.、.、^.g郎奮,.t’r护;這Ir;-导-师马栋/r.P、v'?I‘T;专学難别.-X\!王顿±v.\.屬k类型全;日制'麵^濟/-专C纖>电子M雖'兵心aiV式一,/講论提期撕^月i皆装,‘,類/‘店*.V.;.》.-#.八渉訂t在V.4^;‘南京邮电大学学位论文原创性声明本人声明所呈

4、交的学位论文是我个人在导师指导下进行的研巧工作及取得的研究成果。尽我所知,论,除了文中特别加标注和致谢的地方外文中不包含其他人己经发表或撰写过。的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料一同工作的同志对本研究所倾的任何贡献均已在论文中作了明确的说明并表示了谢意与我。一。本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任、、)睾日.年研究生签名:辨期:反脅南京邮电大学学位论文使用授权声明本人授权南京邮电大学可レッ保留并向国家有关部口或化构送交论文的

5、复印件和电子文培;允许论文被查阔和借阅;可妙将学位论文的全部或部分内容编入有关数据库进行检索;可抖采用影印、缩印或扫描等复制手段保存、泊编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。'占’穿研巧生签名;若毒导师口期午寧备;PSearchenginetheoryandtechnologyresearchThesisSubmittedtoNanjingUniversityofPostsandTelecom

6、municationsfortheDegreeofMasterofEngineeringByZhangYongbangSupervisor:Prof.MaMingdongFebruary2016摘要在网络蓬勃发展的今天,搜索引擎已经成为互联网世界中不可或缺的一部分,很多搜索引擎相关的技术与问题,如今大部分都已经得到了解决。在国内相关产业界也已经有很多公司掌握了基本的搜索开发技术,并拥有专业的搜索技术开发人员,但是越来越多有价值的资讯对现有技术的处理能力仍然是一个挑战。如何从广阔的数据海洋中准确快速地获取人们所需要的信息

7、,是搜索引擎开发过程中的重要课题,因此,搜索引擎相关技术的研究仍然是当今互联网开发过程中的首要任务。本文首先分析了搜索引擎关键技术研究的价值与必要性,对其工作原理、工作流程以及体系结构等方面进行了细致的分析与研究,讨论了搜索引擎未来的发展方向——智能化、个性化与特色化。然后对搜索引擎的各项关键技术展开了详细的学习研究并逐一进行了设计与实现,结合开源网络爬虫工具包Heritrix实现了自己的网络爬虫程序,并对爬虫算法进行了效率上的优化与完善,利用Lucene、Solr、IKAnalyzer等框架工具先后完成了对中文分词技

8、术、网页去重算法、索引的创建与查询技术、搜索结果的排序等工作的设计实现,最后将以上所实现的各个模块集成在一起,完成一个简易的具有全文检索功能的搜索引擎系统。关键词:搜索引擎,网络爬虫,Lucene,Heritrix,Solr,中文分词IAbstractSearchenginehasbecomeanindispensablepart

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。