数据挖掘技术

数据挖掘技术

ID:30838501

大小:238.40 KB

页数:8页

时间:2019-01-04

数据挖掘技术_第1页
数据挖掘技术_第2页
数据挖掘技术_第3页
数据挖掘技术_第4页
数据挖掘技术_第5页
资源描述:

《数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘技术一.数据挖掘的含义和作用数据仓库的出现,带来了"数据丰富,但信息贫乏"的状况。因此迫切需要一种新技术实现从企业海量的数据中发现有用的信息或知识,从而出现了数据挖掘(DataMini隔)技术。数据挖掘(DataMining)就是应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。提取的知识表示为概念(Concepts)、规则(Rules).模式(Patterns)等形式。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本

2、,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。还有一个定义:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找

3、突破口。二.数据挖掘的目的它的目标是将大容量数据转化为有用的知识和信息。数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。在很多情况下,应用数据挖掘技术是为了实现以下三种目的:。发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好四种知识。发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。发现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对文本文档的进行分类等。发现交叉销售的机会是一种关联知识,

4、以及发现大部分客户的喜好的知识[4]。。使数据可视化:分析人员需搞清楚数据库中存储的大量信息的含意。在做任何分析之前,需先将待处理的数据人性化,并寻找显示数据的好方法。。纠正数据:在结合大规模的数据库时,数据库的数据常常是不完整的,而且通常包含错误和自相矛盾的信息。数据挖掘需要以最稳定的方法识别和纠正这些问题[5]。三.主要功能数据挖掘综合了各个学科技术,有很多的功能,当前的如下:1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,

5、以采取相应的贷款方案。2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。1.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。2.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。3.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在

6、的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。具MSMin已t四、数据挖掘的常用工具SAS研究所认为数据挖掘是对数据进行选择,探索,调整和建模来揭示数据中未知的模式,开发了图形界面的SAS/EM来进行数据挖掘:(1)Sample——抽样:从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,又易于处理。(2)Explo“一-探索:对数据子集进行探索,寻找出与期望的关系和未知的模式。(3)Modify——调整:对数据进行探索后,有了初步的

7、了解,就必须对数据进行增减,选择,转化,量化,保证有效进行。(4)Modcl——建模:应用分析工具,建立模型,进行预测。(5)Assess——评价:评价数据挖掘结果的有效性和可靠性SPSS公司提出了5A的模型,进行数据挖掘,认为任何数据挖掘方法学都由5个基本元素组成:(1)Assess——正确、彻底的了解业务需求及数据。⑵Access——获取数据,做适当的调整。(3)Analyze——选择适当的分析、验证方法和工具(4)Act——推荐性、有说服力的原型演示(5)Automate提供优秀的自动化软件。数据挖掘工具的市场一般分为三个组成部

8、分:通用型工具、综合/DSS/OLAP数据挖掘工具和快速发展的面向特定应用的工具。通用型工具占有最大和最成熟的那部分市场。从定义上说,它们是非面向特定应用的适合于各种需要的情况,其中包括的主要工具有SASEnterpri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。