数据挖掘论文基于web文献的数据挖掘研究应用

数据挖掘论文基于web文献的数据挖掘研究应用

ID:18920735

大小:51.00 KB

页数:5页

时间:2018-09-24

数据挖掘论文基于web文献的数据挖掘研究应用_第1页
数据挖掘论文基于web文献的数据挖掘研究应用_第2页
数据挖掘论文基于web文献的数据挖掘研究应用_第3页
数据挖掘论文基于web文献的数据挖掘研究应用_第4页
数据挖掘论文基于web文献的数据挖掘研究应用_第5页
资源描述:

《数据挖掘论文基于web文献的数据挖掘研究应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘论文:基于web文献的数据挖掘研究应用【中文摘要】随着高等教育的大众化,高校人数由过去的几十万上升到几百万,国家也会提供大量的资金资助大量科研项目,每年都会有数以万计的文献产生。由于Web文献的大量累积,人们很难从海量的文献数据中寻找到有用的信息,也就起不到提高工作效率的作用。本文的主要就是利用数据挖掘技术从大量的文献数据中找到有用的信息,以便进一步的指导工作。为了选择适合大量文献数据的数据挖掘算法,本文首先对数据挖掘的理论知识做了简要的介绍,给出了文本相似度计算的一般流程和公式,对几种聚类算法进了分析比较,发现一些不足的地方。根据聚类效果的评估原则和增量聚类算法的思想,设计了

2、一个基于内聚度的增量聚类算法,弥补了上面几种算法的不足,然后通过相关实验对该聚类算法的参数进行了优选。查阅相关文献和分析PaperPass软件的检测结果,得出了一个计算文献相似度的计算方法,以便对文献抄袭现象进行检查。根据采用空间向量计算文本相似度的方式,改进了计算相似度的算法。为了获取大量的Web文献数据,本文研究了爬虫的相关知识,设计并实现了一个文献聚集爬虫。本文为了应用上面的算法和为用户提供可操作的平台,设计了一个基于Web文献的数据挖掘系统。本文对该系统的目标和特点进行了分析,选择了相关的技术路线,完成了系统架构、功能及主要模块的划分与设计,设计了系统数据库。最后,给出了系统的

3、运行部署方法和相关功能的演示。【英文摘要】Withthedevelopmentofhighereducation,thenumberofuniversitystudentshasbeenincreasedfromhundredthousandtoseveralmillionduringthepastfewyears,thegovernmentwillprovidesubstantialfundings,andthusalargenumberofresearchprojectsaregeneratedeachyear.Duetotheaccumulationofalargenumbero

4、fWebdocuments,itisdifficulttofindusefulinformationfromthemassofliteraturedata,letaloneimprovetheefficiency.Themainpurposeofthisthesisistofindusefulinformationfromalargenumberofliteraturedataforfurtherguidancebyusingdataminingtechnology.Tofinddataminingalgorithmssuitedforalargenumberofliteratured

5、atas,firstly,thisthesisgivesabriefintroductiontotheoreticalknowledgeofdatamining,andgivesageneralsimilaritycalculationprocessandformulaofthetext,wherewepresentananalysisofseveralclusteringalgorithmsandfindsomedeficiencies.Accordingtotheprinciplesofclusteringeffectsassessmentandthethinkingofincre

6、mentalclusterings,wedesignacohesion-basedincrementalclusteringalgorithm,whichmakesupthedeficiencyofseveralabove-mentionedalgorithms.Thentheparametersoftheclusteringalgorithmareoptimizedbysomerelevantexperiments.ByreferringtorelevantliteraturesandanalysizingthetestresultsofPaperPasssoftware,ameth

7、odforcaculatingthesimilarydegreeisobtained,whichcontributestotheexaminationofthephenomenonofplagiarizeddocuments.Moreover,thealgorithemofcalculatingthesimilaritydegreeisimprovedbasedonthewayofspacevector.Finally,accordingtot

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。