浅谈垂直搜索引擎的研究与设计

浅谈垂直搜索引擎的研究与设计

ID:35122102

大小:2.37 MB

页数:66页

时间:2019-03-19

浅谈垂直搜索引擎的研究与设计_第1页
浅谈垂直搜索引擎的研究与设计_第2页
浅谈垂直搜索引擎的研究与设计_第3页
浅谈垂直搜索引擎的研究与设计_第4页
浅谈垂直搜索引擎的研究与设计_第5页
资源描述:

《浅谈垂直搜索引擎的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学硕士学位论文垂直搜索引擎的研究与设计姓名:李副铭申请学位级别:硕士专业:计算机系统结构指导教师:文军20090501摘要由于通用搜索很难满足个性化和专业化的需求,垂直搜索应运而生。垂直搜索能提供给人们更相关的信息。本文对中文垂直搜索中的几个关键技术进行论述,并设计实现了一个简单的检索系统,包括网络爬虫、网页提取、中文分词、索引检索等,各个部分相互关联构成一个有机的整体。提出了基于实验学习和聚集爬虫的URL规则学习算法。算法的核心是URL规则表达式学习,它能自动从样本网页中学习和产生规则表达式。主要包括以下几个部分:URL抽取、试验学习、分类判别、规则学习;从URL中发掘

2、出链接与主题之间的相关性,以此作为判断URL是否抓取的依据。重新设计了词典机制和查询算法,我们采用了双字HASH加逐字二分的词典机制,综合利用网络文本和搜索提交的关键词来识别新词,并对网页信息抽取做了论述。设计并实现了一个简单的搜索引擎,给出了系统的总体结构图,并对各个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。关键词:垂直搜索,网络爬虫,中文分词,结构化提取ABSTRACTDuetoindividualandprofessionalneeds,thegeneral·purposesearchenginecannotsatisfytherequirement

3、.Itresultedinthenaissanceofverticalsearchengine.TheverticalsearchenginesCalldelivermorerelevantresultstosatisfyusers’requirement.wefocusedonseveralkeytechnologiesaboutchineseverticalsearchengineInthisthesis,andimplementasimplesearchengine,includingspider,webextraction,Chinesewordsegmentation,i

4、ndexer.thevariouspartsareinterrelatedwitheachother.WeproposeanUBFC(URLrulebasedfocusedcrawler)algorithmbasedonanexperimentalcrawlerandafocusedcrawler.Thekernelofouralgorithmis锄URLregularexpressionlearner,whichisusedtoautomaticallylearnandgeneralizetheregularexpressionsofURLsofthesamplewebpages

5、.includingthefollowingsections:URLFilter,pilotstudy,classificationidentification,rulelearning;weexcavatedthecorrelationbetweenthesubjectandLinksinordertojudgewhethertheURLcrawled.redesignthedictionarymechanismandqueryalgorithms,thedouble.character-hash-indexingandverbatimdichotomysegmentationd

6、ictionarymechanismsisproposedinthisthesis.WeUSewebpagecharacteristicandsubmittedkeywordstorecognitionsnewword.weproposesamethodtocontentextractionfromwebpages.Wedesignandimplementasimplesearchengine.Theglobals岫K:tll代of0111"systemandrelationsofthecomponentsofsystemaleintroduced.Somecomponentsa佗

7、detailedinfunctionandimplementation.FinallyasimpleevaluationaboutsearchingeffectandperformanceiSgiven.Keywords:verticalsearchengine,spider,Chinesewordsegmentation,Extractioninformationll独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。