数据挖掘论文

数据挖掘论文

ID:30847383

大小:68.50 KB

页数:7页

时间:2019-01-03

数据挖掘论文_第1页
数据挖掘论文_第2页
数据挖掘论文_第3页
数据挖掘论文_第4页
数据挖掘论文_第5页
资源描述:

《数据挖掘论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘课程论文数据挖掘技术及其应用的实现数据挖掘技术及其应用的实现摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越來越多。数据挖掘(DataMining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程屮所遇到的具体问题,即如何从太规模效据库屮寻找各变量之间的关系以及如何确定条件概率问题。关键字:数据挖

2、掘、知识获取、数据库、函数依赖、条件概率一、引言:数据是知识的源泉。但是,拥有大量的数据与拥冇许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和儿年前不可想彖的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据木身并不意味信息。尽管现代的数据库技术使我们很容易存储人量的数据流,但现在还没右一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出來。在过去,我们常用的知识获取方法是由知识工程师把专家经验

3、知识经过分析、筛选、比较、综合、再捉取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。口前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后Z间的孑盾越來越突出,人们希望在对已冇的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数拯分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练

4、,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽彖[1]。目前,在需要处理大数据量的科研领域屮,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究屮,从而捉高科研工作的效率。二、知识获取与数据挖掘—般说來,知识获取(KnowledgeDiscoveryinDatabases,称称KDD)意为数据库中知识获取,它代表从低层次数据中提取高层次知识

5、的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学屮常指的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:从大规模数据库屮(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。毎一步骤都可能是成功的关键或失败的开始。在一般的定

6、义中数据挖掘是知识获取的一部分。数据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化等领域。(1)统计学统计学在数据样本选择、数据预处理及评价抽取知识的步骤屮冇非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价[2〜4],很明显也包括了评价数据挖掘的结果。在数据预处理步骤屮,统计学提出了估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据冇相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在丁处理小规

7、模数据样本采集和小规模数据集处理的问题上。统计学的工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据库工程师或数据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实屮是不大可能的。(2)模式识别在模式识别工作屮,传统上是把注意力集屮在符号形式化直接结合实际技术的工作过程中[5〜6]。模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分类和含

8、义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤屮,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。