数据挖掘入门课件.ppt

数据挖掘入门课件.ppt

ID:55649142

大小:4.50 MB

页数:194页

时间:2020-05-22

数据挖掘入门课件.ppt_第1页
数据挖掘入门课件.ppt_第2页
数据挖掘入门课件.ppt_第3页
数据挖掘入门课件.ppt_第4页
数据挖掘入门课件.ppt_第5页
资源描述:

《数据挖掘入门课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据挖掘主要内容数据挖掘概述数据预处理数据挖掘算法-分类与预测数据挖掘算法-聚类数据挖掘算法-关联分析序列模式挖掘一、数据挖掘概述数据挖掘概念数据挖掘--从大量的数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的主要目的是提高决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高1℃,就会增加230万瓶的啤酒销量;而日本人则发现,夏季30℃以上的天气每增加一天,空调的销量便增加4万台。沃尔玛超市建立数据仓

2、库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。数据挖掘概念5数据挖掘(DataMining):又称为数据库中的知识发现,是基于AI、机器学习、统计学等技术,高度自动化地分析

3、原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘概念6数据挖掘的任务分类预测(Prediction)利用一些变量来预测未知的或其他变量将来的值.典型的

4、方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。近年来,发展起来的神经网络方法,如BP模型,它实现了非线性样本的学习,能进行非线性函数的预测典型的分类型任务如下:1、给出一个客户的购买或消费特征,判断其是否会流失;2、给出一个信用卡申请者的资料,判断其编造资料骗取信用卡的可能性3、给出一个病人的症状,判断其可能患的疾病4、给出大额资金交易的细节,判断是否有洗钱的嫌疑;5、给出很多文章,判断文章的类别(如科技、体育、经济等)数据挖掘

5、的任务描述型任务:找到人们可以解释的,描述数据的模式.描述性任务主要包括聚类、摘要、依赖分析等几种任务。聚类任务把没有预定义类别的数据划分成几个合理的类别,摘要任务形成数据高度浓缩的子集及描述,依赖分析任务发现数据项之间的关系。典型的描述型任务如下:1、给出一组客户的行为特征,将客户分成多个行为相似的群体;2、给出一组购买数据,分析购买某些物品和购买其他物品之间的联系3、给出一篇文档,自动形成该文档的摘要数据挖掘的任务数据挖掘的任务分类[预测性的]聚类[描述性的]关联规则发现[描述性的]序列模式发现[描述性的]预测回归[

6、预测性的]异常发现[预测型的]分类给定一组纪录(训练集-trainingset)每一条记录都包含一组属性,其中的一个属性就是类.为类属性找到一个模型,这个模型就是其他属性值的函数.目的:先前未见过的纪录应该被尽可能精确的分配一个类中.在分类预测任务中,数据集根据其在数据挖掘过程中扮演角色的不同,可划分为训练集、测试集、验证集。训练集:是在数据挖掘过程中用来训练学习算法,建立模型的数据集.测试集:就是数据挖掘算法在生成模型后,用以测试所得到的模型的有效性的数据集,常被用来决定模型的精确性.验证集:是在数据挖掘过程结束后,模

7、型应用的实际数据集,验证集用于在实践中检验模型.分类例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为(年龄(取值:<30,30~40,>40);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N))记录为14个,具体数据如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N);X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y);X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N);X7=(30~40,低

8、,Y,很好,Y);X8=(<30,中,N,一般,N);X9=(<30,低,Y,一般,Y);X10=(>40,中,Y,一般,Y);X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y);X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N);利用贝叶斯法则预测,符合下列条

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。