商务数据挖掘介绍(教授制作)ln.ppt

商务数据挖掘介绍(教授制作)ln.ppt

ID:52301969

大小:291.51 KB

页数:23页

时间:2020-04-04

商务数据挖掘介绍(教授制作)ln.ppt_第1页
商务数据挖掘介绍(教授制作)ln.ppt_第2页
商务数据挖掘介绍(教授制作)ln.ppt_第3页
商务数据挖掘介绍(教授制作)ln.ppt_第4页
商务数据挖掘介绍(教授制作)ln.ppt_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、商务数据挖掘介绍李保坤老师西南财经大学统计学院概览一数据挖掘的定义和发展什么是数据挖掘促进数据挖掘发展的因素核心领域二数据挖掘过程数据分析过程SEMMA思想三数据挖掘应用举例和课程简介应用举例课程简介什么是数据挖掘是近来创造的名词,是把统计学、计算机科学(机器学习和数据库方法)的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法。目前还没有定型。对此有多种定义,对其范畴还有争议,术语也不标准。广义定义和狭义定义广义定义把传统的统计方法包括进来;狭义定义只强调自动的、粗略的方法,例如查询

2、(使用SQL)。有人称之为数据挖掘,有人称之为信息挖掘,还有人称之为数据库上的知识发现(KDD)。两个从不同角度的定义数据挖掘是建立在规模、速度、和简单化上的统计学;数据挖掘是使用模式识别技术、统计和数学技术,通过对数据库存储的大量数据进行处理以发现有意义的新的相互关系、模式、和动向的过程。促进数据挖掘发展的因素市场:从关注产品/服务到关注客户IT:从记录交易的结余到发现交易的模式-数据仓库(或加工厂),可对数据进行在线分析和处理存储成本的剧烈下降:巨型数据库交易数据的自动获取:条形码等互联网:个性化的应答等

3、。核心领域统计学(调整过的,为了适应21世纪的数据量和速度要求).例如:–描述性统计:可视化–模型:回归,聚类分析机器学习:例如神经网络数据库信息抽取:例如关联法则并行开发:例如树的方法,k-最近邻点,在线分析和处理数据分析过程1.领会应用项目及其要达到的目的2.创建数据集合以供研究(数据集合的数据通常来自数据仓库)3.数据清理和预处理4.数据精减和投影5.选择数据挖掘任务6.选择数据挖掘算法7.用算法去完成任务8.解释结果,如果有必要,重复步骤1-79.应用:把结果装配到工作系统上去。数据挖掘SEMMA思想

4、(SAS)采样(Sample):从数据集合里采样,并把数据集合划分为训练、验证、和测试各数据集合。探索(Explore):用统计方法或者图形方法探索数据集合。调整(Modify):转换变量,删除有缺失值的记录。建模(Model):拟合预测模型,例如采用回归、树、协同滤波。评估(Assess):用验证数据集合比较模型。应用举例客户关系管理金融电子商务和互联网客户关系管理直销(TargetMarketing)客户流失预测/跳槽分析(AttritionPrediction/ChurnAnalysis)欺诈探测(Fr

5、audDetection)信用评分(CreditScoring)直销商业问题:如何挑出很可能购买产品的客户以便把广告邮寄到家里?解决方案:使用数据挖掘对客户的种族、地理信息以及过去的采购行为数据进行挖掘来找出最可能的买家。结果:邮件广告的应答率提高了,节约了邮寄成本。例子:舰队金融集团(FleetFinancialGroup)重新构建其客户服务设施,其中包括$38million投资建造的数据仓储和营销自动化设备从具有15million客户的数据库里抽出20000个客户的背景资料,使用logistic回归方法预

6、测每个客户对房屋淨值产品作回覆的概率使用分类和回归树方法(CART)预测可贡献利润的客户和那些即使回覆也可能不贡献利润的客户跳槽分析(远程通信)•商业问题:阻止现有客户流失,防止喜欢跳槽客户的加入解决方案:使用神经网络、时间序列分析方法辨识出那些很可能流失和很可能跳槽的客户使用电话的典型模式•结果:巩固了现有客户,对顾客的优惠鼓励措施更为有效例子:法国电信(FranceTelecom)•建造客户数据仓库-跳槽/客户背景信息系统(CHURN/CustomerProfilingSystem)-避免不良客户的加入:

7、根据用户的背景资料以及已知的跳槽和不跳槽客户的案例来找出跳槽者的显著特点-早期探测:通过比较电讯使用模式和已有的跳槽客户的案例作比较可早早知道某客户将来是否跳槽。欺诈探测商业问题:欺诈活动会增加成本或者减少收入解决方案:使用logistic回归,神经网络方法找出欺诈案例的特点以防将来再发生同类欺诈或者加大检察力度结果:通过减少不良客户增加利润例子:麻省汽车保险局专家们仔细审查关于保险理赔员的以往报告,以识别出欺诈案例关于赔偿请求、事故类型、创伤或者治疗的类型的特征(60多项)被录入到数据库中采用了降低维数的方

8、法,这样得到一些加权的变量。然后使用多元回归的逐步子集选择方法辨别出和欺诈活动相关程度大的一些特征信用评分商业问题:如何减少贷款给爱拖欠的客户的风险解决方案:采用信用评分模型,这些模型采用辨识分析方法建立一个函数把可带来风险的客户区分出来结果:减少不良债务的开支金融商业问题:公司债券的定价取决于几种因素,公司的风险特征(riskprofile)、债务资历(seniorityofdebt)、公司历史等

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。