多数据源中特异数据挖掘

多数据源中特异数据挖掘

ID:26780707

大小:625.50 KB

页数:41页

时间:2018-11-29

多数据源中特异数据挖掘_第1页
多数据源中特异数据挖掘_第2页
多数据源中特异数据挖掘_第3页
多数据源中特异数据挖掘_第4页
多数据源中特异数据挖掘_第5页
资源描述:

《多数据源中特异数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多数据源中的特异数据挖掘年级:2007级导师:王强研究生:曹慧专业:计算机软件与理论方向:数据挖掘摘要数据挖掘技术通过对数据库中的数据进行挖掘,可以得到很多重要的知识,包括分类知识、聚类模式、关联规则以及序列模式等等。其中关联规则是通过分析数据库中频繁出现的数据之间的联系得到的一类规则,是数据挖掘技术应用的最经典案例。需要指出的是,常用的关联规则挖掘方法挖掘的都是存在于数据库中多数平凡数据之间的规律,而那些存在于少数特殊数据当中的规律却不能被常规的数据挖掘方法得到,但是这些规律往往同样具有很重要的使用价值。特异规则就是这样一类规则,他们反映的是数据库中少数对象之间的关

2、系,但又是常理之中的规则,却不能被常规的关联规则挖掘方法挖掘出来。另一方面,随着数据库技术和网络技术的发展,人们已经不再局限于将所有的数据存储到同一个数据库当中,而是可以把数据分布存储在多个数据库当中,要对这多个数据库中的数据进行挖掘的时候就必须用到多数据库挖掘方法。现有的多数据库挖掘方法主要分为以下三类:(1)把多个数据库集成到一个数据库中,然后用传统的单数据库挖掘方法对这个数据库进行挖掘,这种方法在数据库连接过程中会产生大量的记录,而且可能会造成数据冲突、数据不一致等问题;(2)对每个局部数据库进行挖掘,然后集成各个数据库中的局部模式得到全局模式,这种方法有可能会造成一

3、些全局模式的破坏;(3)通过引入归纳逻辑程序设计ILP技术,直接从多个数据库中提取出相关的全局模式,这种方法在使用过程中有较多限制,对于输入格式要求过于严格,且运行效率非常低下。本文研究的是多数据源(库)中的特异数据挖掘,旨在解决上述两个问题,主要研究内容如下:(1)提出了一个新的数据库距离(相似度)定义,既能衡量交易数据库之间的距离,又能衡量数值数据库之间的距离,并据此设计了一个基于聚类的多数据库分类方法AN-DBC,将来自于多个数据源的数据库先根据相似度进行聚类,结构相同或相似的数据库被分到同一个簇当中,结构差别较大的数据库被分到不同的簇当中。同簇中的数据库被认为是同种

4、类型的,可以根据共同的部分结构进行集成得到一个数据库之后再挖掘,或者采用同样的数据挖掘方法并行挖掘。将所有的数据库分类之后再挖掘,相对于传统的把所有的数据库直接集成再挖掘的方法来说,可以大大降低算法的复杂度。此外,相对于直接挖掘局部数据库再集成各个局部模式的方法来说,可以在一定程度上减少全局模式的破坏。(2)分析了现有的特异数据挖掘方法,指出该方法在特异性阈值设置上的不足之处,并在此基础上改进了特异性阈值的设置。本文中设置一个特异性比例因子r,首先计算所有属性值的特异性因子(PeculiarityFactor),特异性因子列于前100r%的属性值被认为是特异性数据。这样使得

5、在每一个属性中我们都能找出一部分异于其他数据的数,即特异性数据。(3)借鉴关联规则生成方法,通过计算特异数据同时出现的概率得到它们之间的关联,最终挖掘出其中的特异规则。(4)从国家统计局官方网站上公布的国家统计年鉴的各个行业数据中随机抽取其中的18个表作为实验数据,首先用AN-DBC方法进行聚类,聚类结果验证了方法的有效性,然后用改进的特异数据挖掘方法对各个簇中的数据库进行特异数据挖掘,集成各个局部特异规则得到全局特异规则。最后,对实验结果进行了分析与讨论。关键字:特异数据挖掘,特异规则,多数据库挖掘,数据库分类PeculiarDataMininginMultiDataSo

6、urcesGrade:2007Supervisor:CaoHuiMajor:ComputerSoftware&TheoryName:WangQiangSubject:DataMiningAbstractDataminingtechnologycangetmuchimportantknowledgefromminingthedatainthedatabase,includingclassificationknowledge,clusteringpatterns,associationrules,andsequentialpatternsandsoon.Association

7、rulesareakindofrulesobtainedbyanalyzingthelinksbetweenthefrequentdatainthedatabase,whichisthemostclassicexampleofdataminingtechnology.Benotedthat,commonlyusedmethodsofdataminingalwaysminethegeneralruleshidinginmostoftheordinarydatainthedatabase,buttheruleswhic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。