商务数据挖掘介绍(教授制作)ln12

商务数据挖掘介绍(教授制作)ln12

ID:5407549

大小:1.68 MB

页数:40页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln12_第1页
商务数据挖掘介绍(教授制作)ln12_第2页
商务数据挖掘介绍(教授制作)ln12_第3页
商务数据挖掘介绍(教授制作)ln12_第4页
商务数据挖掘介绍(教授制作)ln12_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln12》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘算法的几何思想李保坤老师西南财经大学统计学院内容概要一 数据挖掘介绍什么是数据挖掘数据挖掘的主要任务数据挖掘简单步骤二 数据挖掘算法及其几何思想分类:分类树、简单贝页斯、Logistic回归、神经网络、判别分析、k-最近邻点预测:多元线性回归、神经网络数据精简:主成分分析探索性分析:聚类关联分析:关联法则三 西南数据挖掘系统一 数据挖掘介绍1.1什么是数据挖掘是近来创造的名词,是把统计学、计算机科学的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法。数据挖掘是建立在规模、速度、和简单化上的统计学;“是用统计学和计算机科学的方法为大型数据建模的一种综合工具。

2、”-我的想法“会数据挖掘找工作时工资要高一些”!-研究生同学的反馈信息4一 数据挖掘介绍1.1什么是数据挖掘数据挖掘概念及商务应用客户关系管理金融电子商务和互联网客户关系管理直销(TargetMarketing)客户流失预测/跳槽分析(AttritionPrediction/ChurnAnalysis)欺诈探测(FraudDetection)信用评分(CreditScoring)金融商业问题:公司债券的定价取决于几种因素,公司的风险特征(riskprofile)、债务资历(seniorityofdebt)、公司历史等等解决方案:通过数据挖掘建立预测价格的更为精确的模型电子商务和互联网推荐系

3、统把点击鼠标者变成客户1.2.1分类数据挖掘的一项基本任务就是用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。分类或许是数据挖掘应用最广泛的任务。一 数据挖掘介绍1.2任务10一 数据挖掘介绍1.2任务1.2.1分类举例一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款发放给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息等变量建立一个模型预测一个申请人将来会不会欺诈。该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。1.2.2预测预测和分

4、类相似,差别在于我们是预测一个变量的数值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而“预测”这个术语在数据挖掘里通常指的是预测一个连续变量的数值。(另外,预测和估计也经常被混用)一 数据挖掘介绍1.2任务1.2.3关联分析有了储存客户交易信息的大型数据库自然就产生了对购买物品进行的关联分析(哪种物品和哪种物品是搭配着买的)。通过关联分析得到的“关联法则”然后以多种方式被利用。例如,百货商店可以利用关联法则在扫描了一个顾客的采购单后印制优惠券,优惠卷上打折扣的商品是由通过分析大量顾客的采购单得到的关联法则决定的。一 数据挖掘介绍1.2任务1.2.4数据精简数据分析经常需要把复杂

5、的数据进行精简。分析人员不是处理成千上万种商品,而是希望把数据压缩成几个小组。这种把大量的变量(或者记录)合并而得到一个较小数据集合的过程就叫数据精简。一 数据挖掘介绍1.2任务1.2.5探索性分析审查和检验数据以了解它包含什么信息。例如为全面了解数据需要减少数据集合的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量(即提供类似信息的变量)可以合并到一个变量。类似地,聚类分析可把所有记录划分到由相似记录构成的几个组里。一 数据挖掘介绍1.2任务1.2.6数据显示了解数据包含信息的另一个技术是图形分析。例如,两个变量之间的散布图可以让我们迅速地看到变量之间的关系。一 数据挖掘介绍1

6、.2任务数据挖掘任务以及工具-分类:k-最近邻点,简单贝叶斯(NaïveBayes),分类树,判别分析,Logistic回归,神经网络,支持向量机-预测:回归,神经网络,时间序列-关联法则:关联分析-数据精简:主成分分析、相关分析、粗糙集-探索性分析聚类分析17一 数据挖掘介绍1.3数据挖掘步骤把数据划分为训练数据和验证数据两个部分只用训练数据训练模型得到结果,看一下结果是否令人满意检查在验证数据上的结果是否也令人满意研究在验证数据上的各种输出结果尝试几种备择模型选择和部署最佳模型二 数据挖掘算法思想和应用2.1.1决策树几何思想:把预测变量空间划分为多个多维空间的“长方形”,每一个“长方

7、形”对应一个类别。1819二 数据挖掘算法思想和应用2.1.1决策树20二 数据挖掘算法思想和应用2.1.1决策树Iris花21例如:输入变量有X1,X2,…,Xk,输出变量y有3个类别y1,y2,y3.假定所有的输入变量和输出变量都是随机变量。假定在每一个输出类别上输入变量相互独立。针对每一个观测记录,计算给定输入变量值时输出变量等于每一个类别的条件概率。在某一个类别上的条件概率最大,该观测记录就划为某一类。对每一个观

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。