商务数据挖掘介绍(教授制作)ln2

商务数据挖掘介绍(教授制作)ln2

ID:5407557

大小:459.00 KB

页数:41页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln2_第1页
商务数据挖掘介绍(教授制作)ln2_第2页
商务数据挖掘介绍(教授制作)ln2_第3页
商务数据挖掘介绍(教授制作)ln2_第4页
商务数据挖掘介绍(教授制作)ln2_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln2》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、术语、任务、方法、步骤李保坤老师西南财经大学统计学院讲课内容纲要数据挖掘常用术语数据挖掘的任务机器学习方法数据挖掘的步骤数据准备应用举例“算法”指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。“属性”也被称为“特性”、“变量”、或者从数据库的观点,是一个“域”。“个体”是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、或者“行”(每一行通常代表一个记录,每一列代表一个变量)。1常用术语“置信度”在形如“如果买了A和B,就要买C”的关联法则里有特定的含义。置信度是已经买了A和B,还要买C的条件概率。在

2、统计学里,关于选择不同的随机样本导致的估计值的误差大小,置信度有更广泛的含义。“因变量”在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”。1常用术语“估计”指的是预测一个连续型输出变量的值;也被称作“预测”。“特征”也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。“输入变量”是在有约束学习里作预测的变量;也被称作“自变量”、“预测变量”。“模型”通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可以调节的参数)。1常用术语“结果变量”在有约束学习里是那个被预测的变量;也被称作“因变量”“输出变

3、量”、“目标变量”、或者“输出变量”。“P(A

4、B)”读作“已知B已经发生,A将发生的概率”。1常用术语“预测”指的是预测一个连续输出变量的值;也被称作“估计”。“记录”是关于一个单元的测量值的集合-例如一个人的身高、体重、年龄等等;它也被称作“个体”、或者“排”(每一排通常代表一个记录,每一列代表一个变量)。“分数”指的是一个估计的值或者类。“给新数据打分”意思是利用用训练数据得出的模型预测新数据里的输出值1常用术语“有约束学习”指的是用已有记录得到算法(Logistic回归、回归树等等)的过程。在这些记录里人们感兴趣的输出变量是已知的,这个算法“学

5、习”如何预测新记录里输出变量的值,这些值在新纪录里是没有的。“测试数据”指的是只在模型建立和选择的过程的末期,用于评价最终模型对新数据的处理效果的那部分数据。“训练数据”指的是用于拟和模型的那部分数据。1常用术语“无约束学习”指的是人们试图从数据中了解一些东西的分析,而不是预测感兴趣的输出值(例如输出结果是否属于某个聚类)。“验证数据”指的是用于评价模型拟和状况、调整模型、选择最佳模型的那部分数据。“变量”也被称为“特性”、“属性”、或者从数据库的观点,是一个“域”。1常用术语2.1分类数据挖掘的一项基本任务就是对于那些类别或者将来状况未知的数据记录,

6、预测其类别或者预测将来会是什么样子。在此我们用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。2.数据挖掘任务2.2预测预测和分类相似,差别在于我们是预测一个变量的数值,而不是一个类别(比如购买者或者非购买者)。当然,在分类时我们试图去预测一个类别,而“预测”这个术语在这本书里指的是预测一个连续变量的数值。2.数据挖掘任务2.3关联分析储存客户交易信息的大型数据库自然地产生了购买物品的关联分析(哪种物品和哪种物品是搭配着买的),“关联法则”然后以多种方式被利用。2.数据挖掘任务2.4数据精简这种把大量的变量(或者记录)合并到一个较小数据集

7、合的过程就叫数据精简。2.数据挖掘任务2.5数据探索项目的一个重要部分就是查看数据以了解它包含什么信息,就像一个侦探审查一个犯罪现场一样。在此为全面了解数据需要减少数据量的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量(即提供类似信息的变量)可以合并到一个综合所有类似变量的变量。因此,聚类分析可被用于把所有记录分到具有相似记录的几个组里。2.数据挖掘任务2.6数据可视化数据探索领域里了解数据包含信息的另一个技术是图形分析。例如,两个变量之间的散布图可以让我们迅速地看到变量之间的关系。2.数据挖掘任务2.数据挖掘任务2.6数据可视化散点图和分

8、类图X轴:非商业占地;Y轴:低收入比例3.1有约束学习“有约束学习”算法用于分类和预测。我们用来作分析的数据集合里必须有感兴趣的结果变量数值(例如:是否购买)。分类或预测算法从这些训练数据里“学习”或者“被训练”以得到预测变量和结果变量之间的关系(即模型)。在算法从训练数据得到模型后,把它用到验证数据上。验证数据上的结果是已知的,这样经过和其它模型相比较可以对该模型进行性能评价。3.机器学习方法3.1有约束学习如果有许多模型被尝试,我们会使用另外一个已知结果变量的样本(即测试数据)来估计最后选择模型的性能。这个最终模型将被用于给结果未知的新记录进行分类

9、或预测。简单线性回归分析是有约束学习的一个例子。3.机器学习方法3.2无约束学习无约束学习算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。