r软件的数据挖掘应用

r软件的数据挖掘应用

ID:34441098

大小:446.04 KB

页数:7页

时间:2019-03-06

r软件的数据挖掘应用_第1页
r软件的数据挖掘应用_第2页
r软件的数据挖掘应用_第3页
r软件的数据挖掘应用_第4页
r软件的数据挖掘应用_第5页
资源描述:

《r软件的数据挖掘应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第28卷第6期重庆工商大学学报(自然科学版)Vo1.28NO.6JChongqingTechnolBusinessUniv.(NatSciEd)1)ec.20ll文章编号:1672—058X(2011)06—0602—06R软件的数据挖掘应用术陈荣鑫(集美大学计算机工程学院,福建厦门361021)摘要:开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了

2、决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。关键词:R软件;数据准备;挖掘建模;模型评估中图分类号:TP315文献标志码:A数据挖掘方法通过对数据的分析,发现有用的规律和概念,以提高数据拥有者对原始数据的深层次理解与认识,满足决策需求⋯。目前存在各种挖掘软件,主流的商用挖掘工具比如Unica、SAS/EM、InsightflalMiner、IBMIM和SPSS等,这些软件特点是面向通用挖掘问题,功能较为完善,具备较好的性能。但一一般都存在可扩展性不强、成本较高等缺点。开源软件能有效克服这些缺点,比较著名的包括Weka、YAIE、K

3、NIME、Orange和R等。R软件是一款集成了数据操作、统计和可视化功能的优秀的开源软件.R软件具备高效的数据处理和存储功能,擅长数据矩阵操作,提供了大量适用于数据分析的工具,支持各种数据“J-视化输出。R软件的一大优势是分析人员可利用简单的R程序语言描述处理过程,以构建强大的分析功能。此外,R软件具备良好可扩展性,来自世界各地开源社区的研究者为其提供了各种丰富的工具包由于R软件能结合各种挖掘算法,有效地简化数据分析过程,适用于数据挖掘领域。在此通过具体案例,探讨R软件在数据挖掘过程中各主要阶段的应用。1数据挖掘阶段数据挖掘过程一般包括挖掘任务定义、数据准备、挖掘建模、模型评估和模型应用等

4、阶段、、(1)任务定义。分析人员通过与挖掘系统交互,完成挖掘任务的定义。要求系统提供交互界面,并能牛成任务描述信息。(2)数据准备。是挖掘的预处理阶段,包括数据抽取、数据集成、数据选择和数据转换等步骤。首先数据抽取把挖掘对象数据加载进入系统;数据整理用于删除噪声、不一致或重复的数据;数据选择用来抽取分析任务相关的数据;数据转换则把数据转换或合并成适当形式,以利于挖掘的执行。(3)挖掘建模。根据已定义的挖掘任务,选择分类、聚类、关联规则等具体的挖掘方法进行建模【fjf数据准备和数据挖掘本身都会涉及各种算法,然而每种算法有其解决特定问题的优势,又有其不适用于其他问题的劣势。显然,挖掘系统只有集成

5、多种算法可供用户选择,才会有良好的实用性。(4)模型评估。对完成建模后的结果进行解释和评估,可采用可视化和用户易于理解的知识表示办式收稿日期:2011—08—10;修回日期:2011—09—21.$基金项目:福建省自然科学基金项目(2008J04005).作者简介:陈荣鑫(1975一),男,福建厦门人,讲师,硕士,从事软件自动化和数据库技术研究万方数据第6期陈荣鑫:R软件的数据挖掘应用603来表达挖掘结果。比如,采用图形化的决策树模型来表示分类模型,采用“if⋯then⋯”规则形式来表示关联模型。可视化效果对于提高挖掘结果的可解释性和知识的易理解性具有重要作用。(5)模型应用。发布通过评估的

6、模型,提供用户模型应用服务。比如用户可应用已完成的分类模型对新实例进行类别预测。2数据准备2.1典型案例采用的研究案例中,挖掘对象为我国36个省会城市和计划单列市的主要经济指标统计数据,据此拟对我国城市经济发展情况进行分析。数据如表1所示,原始数据来自中国统计年鉴,经过了简单处理,获得了城市发展各项指标的人均数据。各个属性说明如下:A。为城市名称,A为年底人口总数(万人),A:为地区生产值(千人),A为地方财政预算内收入(千人),A为地方财政预算内支出(千人),A为固定资产投资(千人),为城乡居民储蓄(千人),A为社会商品零售(千人),A为货物进出口(千美人),A。为普通高等学校在校学生数(

7、人/百人),Am为医院卫生院(所/万人),A为执业医师(人/百人)。统计数据共有36条记录,由于篇幅所限,表1中仅列出其中4条实例信息记录。表1城市经济指标人均数据2.2数据抽取作为挖掘对象的数据存储形式多样,一般有文件、数据流和数据库等形式存储,挖掘分析则在计算机内存中进行,因此第一步需进行数据抽取,获取外部数据到内存中。R软件提供了多种数据文件和数据库的存取方法。。数据文件包括通用型文件如纯文本文件、Ex

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。