垂直搜索引擎系统的设计与实现

垂直搜索引擎系统的设计与实现

ID:5321646

大小:479.73 KB

页数:5页

时间:2017-12-08

垂直搜索引擎系统的设计与实现_第1页
垂直搜索引擎系统的设计与实现_第2页
垂直搜索引擎系统的设计与实现_第3页
垂直搜索引擎系统的设计与实现_第4页
垂直搜索引擎系统的设计与实现_第5页
资源描述:

《垂直搜索引擎系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第29卷第3期Vol.29,No.3情报科学2011年3月March,2011垂直搜索引擎系统的设计与实现张敏,杜华(河北北方学院信息科学与工程学院,河北张家口075000)摘要:面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。关键词:垂直

2、搜索引擎;中文分词;文本分类;主题相关度;nutch中图分类号:G350文献标识码:A文章编号:1007-7634(2011)03-0421-04DesignandImplementofVerticalSearchEngineZHANGMin,DUHua(SchoolofInformationScienceandEngineering,HebeiNorthUniversity,Zhangjiakou075000,China)Abstract:Facedwithincreasinglyprofessionalandper

3、sonalizedneedsofinformationretrieval,theproblemforgeneralsearchengineisexposed.Itismoreandmoreattentionforverticalsearchtechnologyasamajordirectionofsearchenginedevelopment.Togivesthegeneralstructureofaverticalsearchengine,basedonit,thekeytechnologiesinvolvedare

4、analyzedindetail:Webcrawling,Chinesewordsegmentation,textclassificationandsoon.AndsegmentationandclassificationalgorithmsaddtotheNutch,realizingaprototypesystem.Experimentsshowthatthedegreeofthesystemsubjectisto94%.Keywords:verticalsearchengine;chinesewordsegmen

5、tation;textclassification;degreeofthesystemsubject;nutch随着互联网的普及和发展,搜索引擎作为提供息检索服务提升着人们对搜索引擎的使用率和认同【2】资源检索服务的工具已经成为人们获取信息的重要度,助推了搜索引擎的快速发展。【1】途径,正在深刻影响着我们的生活。但通用搜索引擎在满足搜索全面性要求的同时很难兼顾专业性的1垂直搜索引擎系统总体结构查询需求,用户需求与网络服务之间的巨大反差产生了强大的“搜索噪音”。垂直搜索引擎凭借明确的本系统建立的垂直搜索引擎系统总体结构如

6、图检索目标定位,对网页进行选择性收集,信息采集量1所示。小,更新及时,因而能有效解决通用搜索引擎的弊系统由三部分组成:信息采集(Crawler)、索引端。垂直搜索引擎正在以其日趋精准化、人性化的信(Indexer)和查询(Query)。信息采集模块负责从网络收稿日期:2010-04-21基金项目:张家口市2009年科技攻关项目(0921047B)作者简介:张敏(1974-),女,满族,北京人,讲师,硕士研究生,主要从事网络信息管理研究.422情报科学29卷【4】上搜集网页,对其内容在分词的基础上进行解析、提词方法。本系

7、统基于Nutch设计,其目前还没有应取、过滤;索引模块对搜索到的信息进行整理、分类用上述三种方案的中文分词模块。虽然Nutch具有和索引;查询模块根据用户的查询要求,从索引数据默认的中文分词功能,但它采用的分词方法是单字库中检索出与之相关的资料反馈给用户。分词,即每个字被认为是一个词。这种方法对中文信息分析和处理的结果远未达到人们的期望效果。因此,文中选择采用基于词库的正向最大匹配分词算法,设计并实现适用于Nutch的中文分词模块,以满足系统对中文文本的分析和处理能力。⑴中文分词算法设计。最大匹配法分词需要一个词典,分

8、词过程中文本里的候选词与词典中的词进行比较,若匹配则认为候选词是词,予以切分。所图1垂直搜索引擎系统总体结构谓最大匹配,就是尽可能用最长的词来匹配句子中本文的工作主要集中在对“信息采集”子系统的的汉字串。中文分词的正向最大匹配算法是:对一个研究上,而索引和查询子系统利用了Lucene提供字符串从前到后逐字扫描,从词表中逐一寻找最长

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。