欢迎来到天天文库
浏览记录
ID:33439975
大小:550.22 KB
页数:64页
时间:2019-02-26
《企业级搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文(工程硕士)企业级搜索引擎的设计与实现THEDESIGNANDIMPLEMENTATIONOFENTERPRISESEARCHENGINE鲁桂丽2006年6月国内图书分类号:TP311国际图书分类号:621.3工程硕士学位论文企业级搜索引擎的设计与实现硕士研究生:鲁桂丽导师:唐好选副教授副导师:高伟东高级工程师申请学位:工程硕士学科、专业:软件工程所在单位:软件学院答辩日期:2006年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngine
2、eringTHEDESIGNANDIMPLEMENTATIONOFENTERPRISESEARCHENGINECandidate:LuGuiliSupervisor:AssociateProf.TangHaoxuanAssociateSupervisor:Sr.EngineerGaoWeidongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2006Degree-Conferri
3、ng-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天或许很多人都会选择一种更方便、快捷、全面、准确的方式—互联网。人们登录到某个搜索引擎网站,输入代表自己所关心信息的关键词或者短语,依据返回的相关信息列表、摘要和超链接引导,试探寻找自己需要的内容。现在的搜索引擎技术已经能做到在多数情况下满足用户的这种需要。搜索引擎是按照一定的策略在互联网中搜集、发现信息,对信息进行理解、提取
4、、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,并提高对非结构化数据的分类与检索。本论文描述的搜索系统是面向企业级应用的,可以根据企业的具体特点来搜集相关信息。本系统以构建高性能搜索引擎的检索系统为目标,系统地研究检索在效率问题方面的优化方式。本论文中对索引的结构、分词方式、索引的创建更新策略等相关问题做了比较详细的阐述。在系统结构上采用分布式索引结构,每个节点都配备了热备节点,可以实现24小时不间断的稳定服务;并且还支持内存索引,可以满足实时数据的检索需求;为了提高检索效率,使用了倒排文件分段组织方式;为了提高检索合并速度,在索引模块中采用了对相关度和时间分
5、别建立索引的方法。本系统使用一种词典结构,通过结合中文自动分词与未登录词识别技术,把基本分词结果与在识别过程中生成的扩展词典上的分词结果都选择作为索引词。考虑到大规模检索过程中消耗大量磁盘I/O的特点,加入了缓存技术及相关的页面替换算法。结论表明,基于企业级的搜索引擎具有一定的现实意义和比较广泛的应用前景。关键词搜索引擎;索引;检索;倒排文件-I-哈尔滨工业大学工程硕士学位论文AbstractWiththecontinuousdevelopmentandpopularityoftheInternet,informationgrowingexplosively.Before
6、theInternetpopularized,peopleconsultthematerialassoonastothinkthelibrary,whichhavethemassivebooksmaterial.Todaypeopleperhapsbeenabletochooseoneconvenient,quick,comprehensiveandaccurateway-Internet.Peoplelogonasearchenginewebsite,inputthekeyinformationorphraseofinformationbeinterestedbythe
7、mselves,accordingtotherelevantinformationlistings,summaryandextra-links,guidetofindouttheirneeds.Nowthesearchenginetechnologyhasmeettheneedsofuserstobedonethisinmostcases.SearchenginefollowscertainstrategytocollectanddiscoverinformationintheInternet,understanding,wi
此文档下载收益归作者所有