小议基于新闻版权的并行网页消重技术研究

小议基于新闻版权的并行网页消重技术研究

ID:34806673

大小:3.84 MB

页数:58页

时间:2019-03-11

小议基于新闻版权的并行网页消重技术研究_第1页
小议基于新闻版权的并行网页消重技术研究_第2页
小议基于新闻版权的并行网页消重技术研究_第3页
小议基于新闻版权的并行网页消重技术研究_第4页
小议基于新闻版权的并行网页消重技术研究_第5页
资源描述:

《小议基于新闻版权的并行网页消重技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广西大学硕士学位论文基于新闻版权的并行网页消重技术研究姓名:杨邵玉申请学位级别:硕士专业:计算机软件与理论指导教师:梁正友20090604基于新闻版权的并行网页消重技术的研究摘要随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源。为了达到更高的采集效率并满足用户需求,需要去掉这些重复的网页。论文在分析现有的去重算法基础上,针对现有算法的缺点,提出了一种新的网页去重算法,该算法利用转载的网页大多会标出其来源、出处这一特征进行网页的初步去

2、重,并结合特征串的方法对初步去重后的网页进行二次去重。算法减少了网页文档之间相互比较的次数,更适合海量空间网页的去重。实践表明该算法有较高的准确率和召回率。现阶段的网页去重方法无论是基于网页内容还是基于网页特征都是单机去重,并不能充分利用计算机资源,高效地进行网页去重。目前的并行计算技术大多是基于MPI/PVM的,它们存在的主要问题是程序可移植性差,不便于扩展,配置复杂等缺点。论文在对ProActive中间件进行深入研究的基础上,提出了基于ProActive网格网络并行分布计算中间件的并行网页消重算法一-Del_duplicate,该算法解决了目前并行技术存在的问

3、题,实现了并行去重。实验表明该并行去重软件可以节省更多时间,具有较高的实用价值。关键词:网页消重版权ProActive搜索引擎并行ResearchofDuplicatedNewsWebPagesDeletionInParallelBased--onCopyRightABSTRACTWiththepromptincreaseinformationontheweb,SearchEnginebecomesanimportantmeansforretrievinginformationindifferentkindsofwebpages.Alargenumberofdup

4、licatedwebpagesaregotwhenSearchEngineretrievesthewebpages.Itnotonlyburdenstheuserbutalsowasteslargenumberofstorageresources.Itisimportanttodeletetheduplicatedwebpagestoobtainhigherefficiencyandsatisfytheuser’Srequirement.Accordingtoanalysisoftheshortcomingofexistingmethods,anewwebremo

5、valalgorithmisproposed.Thealgorithmbasedonthewebpages’origintodetecttheduplicatedwebpages,whichintegrateswithfeaturestring.Thealgorithmdecreasesthetimesofcomparisonbetweentexts.Itmorefittoremoveduplicatedwebpagesinmillionsofwebpages。Theexampleshowsthatthealgorithmhashighrecallandpreci

6、sionrate.Existingalgorithmsonremovingduplicatedwebpagesallworkonasinglemachineandcarl’tmixresourceseffectively.ThepresentparallelcomputingtechnologymostlybasedonMPI/PVM,whichhasshortcomingssuchasdifficulttotransplant,inconvenienttoexpandandcomplicatetoinstall.Annewdistributedparallela

7、lgorithm··-··-·tDel_duplicatebasedOnthefomamedalgorithmwasproposed,whichintegrateswithProActivethatisagridandnetworkⅡparalleldistributedcomputingmiddleware.Thetestshowsthatthealgorithmdecreasesthetimeandhashigherpracticalvalue.KEYWORDS:Duplicationremoval;Copyright;ProActive;searchengi

8、ne;di

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。