基于xml和web数据的关联规则挖掘研究

基于xml和web数据的关联规则挖掘研究

ID:32966155

大小:2.40 MB

页数:82页

时间:2019-02-18

基于xml和web数据的关联规则挖掘研究_第1页
基于xml和web数据的关联规则挖掘研究_第2页
基于xml和web数据的关联规则挖掘研究_第3页
基于xml和web数据的关联规则挖掘研究_第4页
基于xml和web数据的关联规则挖掘研究_第5页
资源描述:

《基于xml和web数据的关联规则挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华东师范大学硕士学位论文基于XML和Web数据的关联规则挖掘研究姓名:曹春静申请学位级别:硕士专业:计算机应用技术指导教师:王新伟20071001论文摘要近十几年来,随着Intemet的迅速发展,互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展,互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力,在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角

2、色。因此,人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂,没有特定的模型描述数据,是半结构化的甚至是无结构的数据。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织,对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、.NETDOM对XML操作的支持,针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对

3、XQuery实现的Apriod算法作了比较深入的研究,针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明,改进后的算法能够有效地从XML数据中抽取关联规则。其次,论文也重点探讨了如何使用.NETDOM对XML数据进行直接关联规则挖掘。.NETDOM采用面向对象机制将对XML的操作封装成类库,用其实现的关联规则挖掘算法更符合人类的思维方式,更容易理解。而且,.NETDOM实现的算法的可视化更强,算法编译执行,速度更快。此外,论文

4、从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据,构造了具体的实验,根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明,在不同的环境需求下,两种算法有着各自的强势和劣势,从而可以指导人们在未来XML的关联规则挖掘过程中,应该根据不同的需求和挖掘环境选择不同的挖掘方法,才能使数据挖掘的效率和性能得到优化。最后,本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型,对该模型的各个功能模块进行了详细地介绍。并且根据该模型,设计了一个面向电子商务网站的基于XML的关联规则挖掘系统

5、模块。该模块能够处理多种数据源,支持多种关联规则挖掘算法以及挖掘结果的可视化表达,具有综合性和可扩展性的特点。关键字l关联规则,XML,XQuery,Apriod算法,.NETDOM,Web挖掘基于XML和Web数据的关联规则挖掘研究ABSTRACTIntheRecentyears,becauseofthefastdevelopmentofInternet,moreandmoredatahasbeengeneratedontheWeb.Howtomakegreatuseofthenewknowledgean

6、dimprovetheutilityoftheinformationbecomesabigchallenge.AlongwiththeimprovementoftheXMLtechnology,moreandmoreWebdatabegantoberepresentedusingXML.XMLisplayinganincreasinglyimportantroleintheexchangeandrepresentofawidevarietyofdataontheWebandelsewhereduetoits

7、expansibility,platform—independence,flexibility,simpleness,standardizationandpowerfulabilityforrepresentingdata.So.therehavebeenincreasingdemandsforefficientmethodsthatcanextractrulesandpaffemsfromXMLdata.HoweveEtheXMLdataontheWebistoocomplexandsemi-struct

8、uredwithnocertaindescdptionpaffern.Thus,wecannotdirectlyapplytoXMLdatawiththetraditionaldataminingmethodsforrelationaldatabases.Hence,itisagreatchallengetodevelopefficientandscalablemethodsforXMLdatamining.Ba

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。