数据挖掘技术及其应用研究

数据挖掘技术及其应用研究

ID:37183208

大小:29.00 KB

页数:5页

时间:2019-05-21

数据挖掘技术及其应用研究_第1页
数据挖掘技术及其应用研究_第2页
数据挖掘技术及其应用研究_第3页
数据挖掘技术及其应用研究_第4页
数据挖掘技术及其应用研究_第5页
资源描述:

《数据挖掘技术及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘技术及其应用研究数据挖掘技术及其应用研究数据挖掘技术及其应用研究第25巷第2期2002年6月辽宁师范太学学报(自然科学版)JaurnalofLiaottingNormaluaivershy(NaturalScienceEdition)Vo】.25N0.2Jun.2002文章编号:1000—1735f2002102.0156.03数据挖掘技术及其应用研究刘兴华(辽宁警官高等专科学校侦查呆,辽宁大连116033)摘要:数据库一数据仓库技术和网络技术的迅猛发展,使我们积累了越来越多的数据,如何对这种海

2、量散据进行深入分析和利用.并从中发现有用的知识.已成为信息化社会所面临的重要问题探讨近年发展起来的簿量数据址理技术一数据挖掘的概念,任务,方法,过程,以及数据挖掘在有关行业中的应用,说明了在高拉相关专业中开设数据挖掘课程的必要性关键词:敷据挖掘;数据分析;信息技术中囤分类号:TP274文献标识码:A1数据挖掘的任务1.1关联分析(associationanalysis)关联分析是指在数据库中寻找值的相似性,即发现数据之间的关联规则~般用支持度和可信度两个阈值来度量关联规则的相关性.利用数据挖掘得到的关联

3、规则,只是对数据库中数据相关性的一种描述,在没有得到其他数据验证的前提下,不能保证利用过去数据得到的规律在未来的情况下仍然有效.1.2聚类分析(clusterlng)我们将数据库中的数据分组成为由类似的数据组成的多个类的过程称为聚类.由聚类生成的每个类是一组数据的集合,同一类中的数据彼此相似,不同类中的数据相异.聚类分析是一种重要的人类行为,它增强了人类对客观世界的认识.通过聚类,我们可以建立宏观的概念.对于数据库中数据的聚类,我们可以发现数据的分布模式,以及可能的数据属性之间的相互关系.1.3分类fc

4、lassification】分类是数据挖掘中~项非常重要的任务,也是在商业等领域应用最多的数据挖掘操作.分类就是找出1个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示.该模型能把数据库中的数据项映射到绐定类别中的某一个.我们将为建立模型而被分析的数据元组称训练数据集,训练数据集中的单个元组称作训练样本.分类是利用训练数据集通过一定的算法而求得分类规则.1.4预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型

5、对未来数据的种类及特征进行预测.典型的预测方法是回归分析,即用大量的历史数据,以时间为变量建立回归方程.在最简单的情况下.回归采用像线性回归这样标准的统计技术.但大多数现实问题是很难用简单的线性回归进行预测的,如销售量,股票价格等,因为要描述这些事件的变化可能需要数以百计的变量,而且这些变量本身也往往是非线性的.为此人们又发明了许多新的手段来解决这类问题,如非线性回归,决策树,神经网络等.1.5时序模式(time.seriesDattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式.与回归

6、一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同.所采用的方法一般是在连续时间流中截取1收稿日期:2001.12-06作者简秆:划华(1961一),男.内蒙古通辽人,辽宁警官高等专科学拉讲师,硕士第1期封昔毕}数据挖掘技术厦其应用研兜157个时间窗口(1个时间段),窗口内的数据作为1个数据单元,然后让这个时间窗口在时问流上滑动,以获取建立模型所需要的训练集.1.6偏差检测数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况是非常重要的.事实上,在偏差中包括很多有用的知识

7、,如分类中的反常实例,模式的例外,观察结果对模型预测的偏差,量值随时间的变化等.偏差检验的基本方法就是寻找观察结果与参照之问的差别.2数据挖掘方法2.1决策树方法决策树方法是数据挖掘中经常使用的方法,它可以用来进行数据分析,也可以用来做预测.决策树(decisiontree)是一个类似流程图的树型结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表1个测试输出,而每个树叶点代表类或类分布.树的最顶层节点是根节点.决策树建立的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应1个问题,也

8、对应着1个节点.对每个切分都要求分成的组之间的”差异”最大.目前,在数据挖掘中使用的决策树方法有多种,典型的,在国际上影响较大的决策树方法是Quinlan研制的ID3算法.2.2神经网络方法神经网络最早由心理学家和神经生物学家提出,旨在寻求开发和测试神经的计算模拟.由于神经网络在解决复杂问题时能够提供一种相对简单的方法,因此近年来越来越受到人们的关注.典型的神经网络模型主要分3大类,既以感知机,BP反向传播模型,函数型网络为代表的,用于分类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。