【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf

【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf

ID:32036283

大小:2.52 MB

页数:61页

时间:2019-01-30

【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf_第1页
【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf_第2页
【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf_第3页
【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf_第4页
【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf_第5页
资源描述:

《【硕士论文】领域搜索引擎语义检索模型的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、武汉理工大学硕士学位论文摘要面对网络上海量的信息,搜索引擎已经成为我们获取网络信息的主要入口。目前的搜索引擎主要采用基于关键词的匹配来获取Web上的相关信息。但是,一方面Web上信息的巨大数量及其丰富多样的特点使得采用该方式将得到大量与需求无关的信息,另一方面,基于关键词匹配的检索无法对检索的语意充分表达也造成了搜索引擎对用户查询需求的“误解”,进一步影响了使用搜索引擎查询信息的准确率。评价一个搜索引擎的两个指标是查全率(Recall)和查准率(Precision)。而对于当前的搜索引擎来说,面对网络中海量的信息,每一次搜索所返回的信息量已经通常都会非常的

2、巨大,但是返回信息与用户的期望之间的查准率却无法尽如人意。本文从可以提高这两个指标为目标,以可以提高查找信息准备的聚焦搜索为基础,设计和实现了一个完整的语意检索模型。首先,应用当前的聚焦爬虫、专业词库等技术,对信息有针对性的采集及过滤,从而在一定程度保证了所采集信息相关度的相对集中。然后,利用已采集信息中较为典型的数据作为分析的数据源,获取一定语境之下词语同现的基本数据,构建同现二维表,并通过相应的处理来优化二维关系表。在进行信息的检索时,主要利用相关二维表所体现的词语之间的关系,从而使搜索引擎具备一定的理解能力,从语义上进行信息的查询,提高搜索引擎查询的

3、准备度。本文通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索权重的控制和索引优化的方法与增量索引方法,实现了领域搜索引擎的检索部分功能。最后,本文通过以上述方法构建的系统进行性能分析,得到了一个较好的结果。关键词:搜索引擎,信息检索,聚焦搜索,词语同现武汉理工大学硕士学位论文AbstractTraditionalkeyword-basedsearchenginesthattryt

4、ocollectandindexalltheWebpagesusuallyreturnmanyresultsthatusersdon’tcareAsolutiontothisproblemistocollecttherelevantinformationbyusingmachinelearningalgorithmandinteractionwithBSerS.TIlisiscalledfocusedcrawling.Itcanbeusedtoimprovetherelevanceanduptodateofthequeryresults.Ontheothe

5、rhand,general-purposesearchenginestakelesscareoftherelationbetweenthewordswhereco-oe..圮urrencetoshowthemean,andSOcan'tknowtheneedofuserwell.Recallandprecisionaretwomajorguidelinesforevaluatingtheperformanceofsearchengines.Inthisthesis,westudyfocusedcrawlingandc0一OCOJ,lTencewordste

6、chnologythatcallimprovethesetwoguidelines.Firstly,Webuildtheco-occurrencematrixbytypicaldata.Secondly,Secondly,tothedifferentinputbyusers,wecanprovidethedifferentsolutionstomakemorepreciseresult.Full·textindexanduserqueryinterfacearealSOimportantcomponentsinsearchengine.Inthisthes

7、iswestudythetheoryofinformationretrieval,anddescribeafull—textindexsystemthatsupportChinesewordseparationanddocumentabstractgenerationbasedonLucene.WeanalyzetheSOurcecodeofLuceneinApache觚l·textsearchsystem,andmasterthesystemstructure,thebasedatatype,theindexstructureinmemory,thest

8、ructureofindexfileinLucenesystem.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。