基于xml的web数据挖掘研究

基于xml的web数据挖掘研究

ID:33387212

大小:3.56 MB

页数:74页

时间:2019-02-25

基于xml的web数据挖掘研究_第1页
基于xml的web数据挖掘研究_第2页
基于xml的web数据挖掘研究_第3页
基于xml的web数据挖掘研究_第4页
基于xml的web数据挖掘研究_第5页
资源描述:

《基于xml的web数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京理工大学硕士学位论文基于XML的Web数据挖掘研究姓名:汪平申请学位级别:硕士专业:控制理论与控制工程指导教师:王建宇20090608硕士论文基于XML的Web数据挖掘研究摘要Web数据挖掘是指利用数据挖掘技术从互联网的海量数据中发现和提取信息,而目前互联网上的数据信息没有特定的模型,大多数是半结构化的甚至是无结构的数据,这给数据挖掘带来了很大的麻烦。本文首先根据Web数据挖掘的特点以及XML在Web挖掘中的应用,设计了一个基于XML的Web数据挖掘模型,描述了HTML格式的网页文档向XML文档的转化过程,分析了转化过程中的关键技术,重点研究和探讨了针对XML文档数据集的数据挖掘问

2、题。其次,研究了Apriori关联规则算法的基本理论与过程,分析了该算法的局限性。提出了一种基于事务长度分割数据集的改进算法,实验结果证明,改进算法提高了算法的效率。最后,详细描述了k-means聚类算法的基本理论与过程,分析了该算法对初始中心点的依赖性,针对初始聚类中心点的选取方法作出了如下改进:(1)提出了一种基于距离和聚类的孤立点检测方法,该算法能有效检测出所有的孤立点,从而避免了将孤立点误选为初始中心点;(2)结合密度的思想,根据各中心点距离应保持最大的原则对初始聚类中心点的选取作了改进。实验结果证明,改进算法提高了聚类的准确率。关键词:XML,Web数据挖掘模型,关联规则,聚

3、类分析硕士论文AbstractWebDataMiningisaminingtechnologywhichdiscoverandretrieveinformationfromthe]nternet.Currently,thedatasontheInteracthavenOspecificmodel,mostofwhicharesemi—structuredorevenunstructureddata,whichbringdataminingagreatdealoftrouble.Firstofall,accordingtothecharacteristicsofwebdatamining

4、andtheapplicationofXMLinWebmining,thispaperdesignsaXlVIL-basedwebdataminingmodel,explainstheprocessofHTMLdocumentstransfonnedtoXMLdocumentsandanalyzesthekeytechnologyintheprocess.TheproblemofdataminingforXMLdocumentsaremainlydiscussedinthepaper.Secondly,thepaperresearchsthebasictheoryandtheproce

5、ssoftheApdoriassociationrulesalgorithm,analyzestheshortcomingsofthealgorithm,proposesallimprovedsegmentationalgorithmwhichbasedonthetransactionlength.TheexperimentshowsthatourmethodimprovesApriorialgorithmperformance.Finally,thepaperdescribesthebasictheoryandtheprocessofk-meansclusteringalgorith

6、mdetailedly,analyzesthealgorithm。SdependenceOiltheinitialc圮ntroids,makesomeimprovmentsasfollows:(1)Thepaperproposesanewmethodofexcludingisolatedpointwhichwillbeavoidedasinitialeentroids;(2)Accordingtotheideaofdensity,thepaperselectsinitialcentroidswhichshouldkeepthemaximumdistance.Theexperiments

7、howsthatOLll"methodgetbetterresults.KeyWords:XML,Webdataminingmodel,Apriofi,k-meansⅡ声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:—

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。