【设计正文】模板(双面打印)

【设计正文】模板(双面打印)

ID:15143862

大小:671.00 KB

页数:38页

时间:2018-08-01

【设计正文】模板(双面打印)_第1页
【设计正文】模板(双面打印)_第2页
【设计正文】模板(双面打印)_第3页
【设计正文】模板(双面打印)_第4页
【设计正文】模板(双面打印)_第5页
资源描述:

《【设计正文】模板(双面打印)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、西华大学毕业设计说明书摘要搜索引擎(SearchEngine)是一个对互联网上的信息资源进行搜集整理的应用软件系统。它主要包括信息搜集、索引建立和信息检索三个部分。搜索引擎有很多类型,常见的有FTP搜索引擎和WEB搜索引擎。一般WEB搜索引擎较少处理FTP服务器上的数据。就信息规模而言,FTP服务器的信息量比WEB服务器小很多。因此FTP搜索引擎硬件投入和维护的费用也远远低于大型通用搜索引擎。本文针对在FTP服务器的搜索速度和效率问题,对现有FTP搜索引擎技术进行了分析和研究,重点详细介绍了爬虫模块和索引模块的设计与实现。文章首先分析了FTP搜索引擎研究的背景和意义。然后在第3章节和第4

2、章节中详细描述了关键的爬虫技术和索引技术,包括:如何进行网段扫描,获取数据以及建立索引数据库等。最后本文还分析了在爬虫和索引实现时遇到的困难并提出了相应的解决方案。【关键词】FTP搜索引擎网络爬虫索引西华大学毕业设计说明书AbstractSearchEngine(SE)isanapplicationsystemforinformationcollectingand西华大学毕业设计说明书classifyingontheInternet.SEconsistsof3modules:informationcollecting,indexbuildingandinformationretrievi

3、ngmodule.ThereareseveralkindsofSE,theWEBSEandFTPSEarefavoritetoolsamongthemforendusers.Usually,mostWEBSEsdonotworkwellonFTPsites.Asfarastheinformationscaleonservers,theFTPserversareextraordinarysmallthanthewebservers.ThusthecostofinvestmentandmaintenanceonhardwareisfarlessthantheWEBsearchengines.

4、AimingattheissuesonsearchingefficiencyandsearchingrateofFTPsearchengines,thethesisanalyzestheexistingtechnologies,andthendescribestheimplementationofspidermoduleandindexmoduleindetail.ThethesisanalyzesthebackgroundandsignificanceofFTPsearchenginesatfirst.Then,thekeytechniquesonspiderandindexarede

5、taileddiscussedinthe3rdand4thchapter.Itincludeshowtoscantheappointednetwork-zone,howtoextractthefileinformationfromthebinarydata-stream,aswellashowtobuildtheindexdatabase.Besidesanalyzesthedifficultieswhilescanningandindex-building,thethesispresentssomefeasiblesolutionsatlast.【KeyWords】FTPSearchE

6、ngineWebSpiderIndex西华大学毕业设计说明书目录前言11FTP搜索引擎爬虫模块介绍21.1设计思路21.2设计步骤21.2.1扫描站点2IV西华大学毕业设计说明书1.2.2获取数据21.2.3数据分类21.2.4生成源文件31.2.5生成站点列表31.2.6建立索引文件32FTP搜索引擎概要设计42.1工作原理42.2工作流程图53FTP搜索引爬虫模块擎详细设计63.1设计目的63.2功能模块设计63.2.1网段扫描63.2.2获取数据83.2.3关于编码问题的解决163.2.4服务器兼容173.2.5生成数据文件213.2.6生成站点列表244FTP搜索引擎索引模块详细

7、设计264.1.1格式化数据264.1.2汇总属性文件284.1.3双字母建立索引294.1.4索引数据库314.1.5字符编码325开发环境和结论335.1硬件环境335.2软件环境335.3运行环境335.4运行结果34IV西华大学毕业设计说明书5.5存在的问题和不足34总结35致谢36参考文献37IV西华大学毕业设计说明书前言随着网络的发展,尤其是互联网的全球普及,使互联网上的信息急剧增长,很多个人和企业用户都建立对外开放的F

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。