试析基于xml的web数据挖掘及关联算法的研究

试析基于xml的web数据挖掘及关联算法的研究

ID:34817914

大小:2.16 MB

页数:49页

时间:2019-03-11

试析基于xml的web数据挖掘及关联算法的研究_第1页
试析基于xml的web数据挖掘及关联算法的研究_第2页
试析基于xml的web数据挖掘及关联算法的研究_第3页
试析基于xml的web数据挖掘及关联算法的研究_第4页
试析基于xml的web数据挖掘及关联算法的研究_第5页
资源描述:

《试析基于xml的web数据挖掘及关联算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文基于XML的Web数据挖掘及关联算法的研究姓名:廖鹏申请学位级别:硕士专业:农业机械化工程指导教师:左源瑞20090401摘要基于XML的Web数据挖掘及关联算法的研究农业机械化工程专业硕士研究生廖鹏指导教师左源瑞副教授近年来,随着互联网的迅速发展,互联网上的数据越来越庞大,而且数据的种类也越来越繁杂,怎样能够有效地利用这些复杂的数据,从中发掘有价值的信息成了现今的研究热点。由于Web上的数据没有特定的模型描述,是一种半结构化或者是无结构的数据,那么相对于传统的数据库挖掘技术而言,就存在着很多的困难;瑚L是一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中

2、的属性对应起来,实施精确的查询和模型抽取。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。此外Apriori算法是一个经典的关联规则挖掘算法,但是它存在这需要频繁重复扫描数据库以及产生数量庞大的2一项集等弊端。本文在介绍了数据挖掘、Web数据挖掘、)a几等一些基本概念、技术、方法、过程的基础上,完成了从XMLSchema文档映射为关系模式的设计,即在基于)眦的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法中间建立了联系之后,对传统的Apriori算法进行了分析和改进,通过实验证明,改进后的算法获得了较好的效率和性能。关键字:Ⅺ儿Web数据挖掘关联规则Abstra

3、ctRecentyears,thequantityandthekindofdataonIntemetbecomehuge.HowtoBsethesecomplexdata,andgetusefulinformationfromthemisaresearchhotspot.BecameofthedataOnInternethas110specialmodeldescription,theyareakindofsenti.structureornon.structuredata.SoitishardforUStododataminingcomparedtothetraditiondatabase.

4、XMLisakindsemi—structuredatamodel,itiseasytomatchtheXML’sdocumentdescriptionandattributeinrelationshipdatabase,todopreciseinquiry.nledataminingtechnologybasedonXMLisdifferentfromthedataminingtechnologyfortraditionaldatabase.Aprioriarithmeticisaclassicassociationanalysisalgorithm,butthereareseveralma

5、lpracticesuchas:itneedtoscanthewholedatabaserepeatedly,anditwouldgenerateahugenumberof2一frequencyitem.Inthispaper,firstsomeconcepts,technology,methodSandprocessesofdatamining,W曲datamining,XMLareintroduce&ThenakindofmethodthatmaptheXMI,SchemaDocumentintorelationmodelwhichCanbuildaconnectbetweenW.ebda

6、taminingbasedXaViLandtraditionaldataminingaltofithmareintroduced.AtlasttheclassicApriofialgorithmareanalysedandimproved.neexperimentshowedthattheimprovedarithmetichasabetterperformance.KeyWords:XML;WebMining;AssociationIIl独创性声明学位论文题目:基王婴坠煎壁垒数量控握丞差基篡洼鱼盈塞本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过

7、的研究成果,文中已加了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了明确说明并表示衷心感谢。学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生院(筹)可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。