数据挖掘课程内容整理

数据挖掘课程内容整理

ID:18720854

大小:64.00 KB

页数:5页

时间:2018-09-20

数据挖掘课程内容整理_第1页
数据挖掘课程内容整理_第2页
数据挖掘课程内容整理_第3页
数据挖掘课程内容整理_第4页
数据挖掘课程内容整理_第5页
资源描述:

《数据挖掘课程内容整理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1、数据挖掘:(定义)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。(功能)概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。(典型数据挖掘系统组成)数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形用户界面。(步骤)(1)数据清理:消除重复的、不完全的、违反语义约束的数据(2)数据集成:多种数据源可以组合在一起(3)数据选择:从数据库中检索与分析任务相关的数据(4)数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或

2、聚集操作(5)数据挖掘:使用智能方法提取数据模式(6)模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式(7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识(前4个是数据预处理步骤)2、据预处理:(原因)原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(内容)a数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。b数据集成:将多个数据源中的数据

3、结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。c数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。d数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。(数据清理基本内容)1尽可能赋予属性名和属性值明确的含义;2统一多数据源的属性值编码;3去除无用的惟一属性或键值(如自动增长的id);4去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的)5去除可忽略字段(大部分

4、为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果)6合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额)7去掉数据中的噪音、填充空值、丢失值和处理不一致数据。(处理空缺值方法)忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。(常见分箱方法)统一权重法(又称等深分箱法);统一区间法(又称等宽分箱法);最小熵法;自定义区间法。(数据平滑处理方法)平均值法、边界值法和中值法。(数据规约定义)保持原来数据的完整性,将数据集变小,并不影响对结

5、果的分析(规约方法)数据立方体聚集;维归约;数据压缩;数值压缩;离散化和概念分层。(规约原因)维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率(数据规范化定义)将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.0~1.0),称为规范化。(常见方法)(1)最大-最小规范化:(2)零-均值规范化:(3)小数定标规范化:x=x0/10α3、数据仓库:(定义)数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,为企业决策支持系统提供所需的集成信息。(建立目的)一是为了解企业

6、决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。(方法)自顶向下方法;自底向上方法;二者结合的混合方法(基本步骤)选取待建模的商务处理;选取商务处理的粒变;选取用于每个事实表记录的维;选取事实表中每条记录的变量(特点精)面向主题的,时变的,集成的,非易失的

7、(特点全)(1)面向对象指数据仓库中的数据是按照一定的主体域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。(2)集成的指数据仓库中的数据是对原有分散的数据库数据抽取、清理的基础上进行系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除

8、操作,也就

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。