欢迎来到天天文库
浏览记录
ID:33299048
大小:1.83 MB
页数:62页
时间:2019-02-23
《基于semma的数据挖掘工具设计及其关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东北大学硕士学位论文基于SEMMA的数据挖掘工具设计及其关键技术研究姓名:万家华申请学位级别:硕士专业:计算机应用指导教师:江早2001.2.1摘要通用的数据挖掘工具必须支持从数据准备、数据变换到模型评估这一整个数据挖掘过程,而不仅仅是一些数据挖掘算法的集成。为了解决这一问题,本文研究了数据挖掘方法论SEMMA以及设计通用数据挖掘工具的一些关键技术。本文首先在比较数据挖掘工具和一般数据库工具,分析主流数据挖掘工具的基础上.给出了数据挖掘工具的基本要求。接着讨论了数据挖掘方法论SEMMA,它将整个数据挖掘过程分为5步,即Sample(采样)
2、,Explore(探索),Modify(修改),Model(建模)和Assessment(评估),反应了数据挖掘的本质。然后基于SEMMA方法论,重点讨论了设计通用数据挖掘工具的关键技术,包括数据挖掘过程建模、可视化、模型评估和模型应用。1)采用数据挖掘节点来完成数据挖掘过程的每一步,每个节点设计对应一个类,这一部分重点讨论了所有节点基类ROBOTOOL的设计。2)可视化在数据挖掘过程中扮演着重要的角色,包括数据可视化、模型可视化和过程可视化。本文讨论数据可视化的一些基本实现方法:数据挖掘模型结果的可视化展示,包括决策树、关联规则和聚类结
3、果的可视化;提出了过程可视化的概念,给出了体现过程可视化的数据挖掘流程图来组织数据挖掘工程的方法。3)构造了一个通用模型评估框架(评估节点)来评估模型。该框架从模型的准确度和效用(期望收益)两个角度对模型进行评估。准确度包括模型的错误率和基于错误率调整的参数如SBC,AIC和FPE等。效用评估是通过计算每个模型的期望收益,并借助LIFT图、Profit图和ROC图来比较模型。另外,为了给出一个公正的评价本文使用独立于训练集的测试数据来评估模型。实验结果表明该模型评估方法是行之有效的。本文运用打分代码来表示模型,设计了打分节点来完成整个数据
4、挖掘流程的打分代码收集和对新数据集进行打分。较好地解决将模型应用到独立于数据挖掘工具的应用中的问题。最后给出一个基于SAS的通用数据挖掘工具OpenMiner的实现方案。包括其系统结构,模块关键词.KD、D/,8E妙7繁’过程秽,桫估,咿用√o/)(∥“矿‘——些塑生——————————————一AbstractAcommonKDDtoolmustsupportthestepsfromdatapreparetomodelassessment.Todealwiththischallenge,SEMMAmethodologyandkeytec
5、hnologiesofdesigningacommonKDDtoolarestudied.ComparingtheKDDtoolwithdatabasetoolsandanalysesofsomepopularKDDtools,wegivethebasicneedsoftools.NextaKDDmethodologyso·calledSample,Explore,Modify,ModelandAssessment(SEMMA)proposedbySASisdiscussed.SEMMAcompressesthewholeKDDproce
6、ssinto5steps,whichreflectsthedynamicnatureofdatamining.ThenbasedonSEMMAmethodology,wediscussKDDprocessmodel,visualization,modelassessandmodelapplication】)BasedSEMMAweusesomenodesloaccomplisheverystepofKDDprocess.Thenwedesignaclassforeverynode,anddiscussthefunctionofbasecl
7、assROBOTOOLforallnodes.2)VisualizationplaysanimportroleinKDDprocessincludingdata,model,andprocessvisualization.Inthisthesis.weputforwardtheprocessvisualizationconceptanduseKDDprocessflowdiagramtoorganizetheKDDproject.3)Weconstructacommonframework-AssessmentNodetoassessthe
8、models:Theframeworkincludesthestatisticparameterofmodelandtheprofits(expectedandactual)ofusingmo
此文档下载收益归作者所有