基于web文献数据挖掘的研究应用的论文

基于web文献数据挖掘的研究应用的论文

ID:33723526

大小:4.68 MB

页数:56页

时间:2019-02-28

基于web文献数据挖掘的研究应用的论文_第1页
基于web文献数据挖掘的研究应用的论文_第2页
基于web文献数据挖掘的研究应用的论文_第3页
基于web文献数据挖掘的研究应用的论文_第4页
基于web文献数据挖掘的研究应用的论文_第5页
资源描述:

《基于web文献数据挖掘的研究应用的论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士研究生学位论文第1页摘要随着高等教育的大众化,高校人数由过去的几十万上升到几百万,国家也会提供大量的资金资助大量科研项目,每年都会有数以万计的文献产生。由于web文献的大量累积,人们很难从海量的文献数据中寻找到有用的信息,也就起不到提高工作效率的作用。本文的主要目的就是利用数据挖掘技术从大量的文献数据中找到有用的信息,以便进一步的指导工作。为了选择适合大量文献数据的数据挖掘算法,本文首先对数据挖掘的理论知识做了简要的介绍,给出了文本相似度计算的一般流程和公式,对几种聚类算法进了分析比较,发现一些不足的地方。根据聚类效果的评估原则和增量聚类算法的思想,设

2、计了一个基于内聚度的增量聚类算法,弥补了上面几种算法的不足,然后通过相关实验对该聚类算法的参数进行了优选。查阅相关文献和分析P印erP硒s软件的检测结果,得出了一个计算文献相似度的计算方法,以便对文献抄袭现象进行检查。根据采用空间向量计算文本相似度的方式,改进了计算相似度的算法。为了获取大量的W曲文献数据,本文研究了爬虫的相关知识,设计并实现了一个文献聚集爬虫。本文为了应用上面的算法和为用户提供可操作的平台,设计了一个基于W曲文献的数据挖掘系统。本文对该系统的目标和特点进行了分析,选择了相关的技术路线,完成了系统架构、功能及主要模块的划分与设计,设计了系统数据库。最后

3、,给出了系统的运行部署方法和相关功能的演示。关键词:数据挖掘;增量聚类算法;文献聚焦爬虫;文本相似度西南交通大学硕士研究生学位论文第1I页AbstractWitllt11edeVelopmentof1li曲ereducation,t11e舢mberofu】[1iVersitystudentshasbeenincreasedfbmhuIldredtllous锄dt0seVeralmillion埘ng也epastfewyears,t11egoVemmentwillprOVidesubstaIltialfhIldings,锄dt11usalargenlImberofrese

4、archprojectSaregeneratedeachyear.Duet0廿1eacc啪ulationofala理remmlberofW曲documents,itisdi币cultto缸d啦emlinfbml纰jon舶mmeInassoflite功臼鹏出呱letalo聆irnprove吐lee伍cieIlcy.Themainpu∞oseofthisnlesisist06nduse矗Jlinf.omlationf-romalargent曲beroflite暇turedatafor氏l栅guidancebyllsing缸aminillgtechnolo缈T0觚da_ta

5、minjngalg嘶thmssui锄f-oralargenlHnberofl腑a饥鹏datas,firstly'thistllesis西Vesabriefintroductiont0廿1eoreticalhowledgeofdatamilliIlg,a11d百Vesa龄meralsiIIlilari锣calculationpn)cessandf0I珈daofmetext,、珈erewepres铋t锄a砌ysisofseVeralclusteringa_lgod锄【Ils锄d勖dsomedeficiencies.Accordingt0tlleprinciplesofcl

6、ust酣nge仃ccts嬲sessment觚dtlletllimdngofiIlcrem铋talclusteIIings,wedesi印acohesi∞-b勰edincrcIn锄talclus蜘ngalgorimm,、Ⅳhichmal(esup廿lede矗ciencyOfseVeraldbOVe蚰entiOnedalgodtllnls.Tll明廿lep聪哪etersofⅡleclusteringa190一tllmare0ptilllizedbys伽ercleVanteXpe订m%ts.Byref.erringt0releV锄tlit盯咖res觚d觚alysizingt

7、lletest陀sultsofPaperPasssonware,ametllodf.orcaculatingtlles面1il孤yde舀.eeisobtaine也wIlichcontributest0廿leex锄mationofmephenomenonofplagi疵edd0C啪ents.MoreoV%mea190ritIlemofcalculatingttlesimil撕t),degrceisimpr0Vedbasedontllewayofspacevector.Fmlly'accordjIlgt0tllerelev{mtknowledgcoftl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。