数据挖掘离线作业

数据挖掘离线作业

ID:13935941

大小:103.50 KB

页数:9页

时间:2018-07-25

数据挖掘离线作业_第1页
数据挖掘离线作业_第2页
数据挖掘离线作业_第3页
数据挖掘离线作业_第4页
数据挖掘离线作业_第5页
资源描述:

《数据挖掘离线作业》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、浙江大学远程教育学院《数据挖掘》课程作业姓名:吴金翔学号:713070244001年级:13春信息管理学习中心:余杭—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据路技术和机器学习(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?

2、答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的,有用的,隐含的,先前未知的和可能有用的模式或知识。(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:1,数据库、数据仓库或其他信息库;2,数据库或数据仓库服务器;3,知识库;4,数据挖掘引擎;5,模式评估模块;6.图形用户界面。(3)Web挖掘包括哪些步骤?答:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。(4)请列举数据挖掘应用常

3、见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据路、数据仓库、事务数据库和高举数据库系统和信息库。其中国际数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。第二章认识数据一、填空题(1)两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相似度为:5/13(2)数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差(3)一种

4、常用的确定离群点的简单方法是:出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值。二、单选题(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:A、中位数=平均值=众数;B中位数>平均值>众数;C、平均值>中位数>众数;D;众数>中位数>平均值选C(2)下面的散点图显示哪种属性相关性?A不相关;B正相关;C负相关;D先正相关然后负相关;选C三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上

5、的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而对不对称的二元属性中,变量的两个状态的重要性是不同的,对称的二元属性可以使用简单匹配系数苹果它们的相异度;不对称的二元属性使用jaccard系数评估它们的相异度。第三章数据预处理一、填空题(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换和数据规约(2)数据概化是指:沿概念分层向上概化(3)数据压缩

6、可分为:有损压缩和无损压缩两种类型。(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些?答:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然划分分段。(2)请描述主成份分析(PCA)算法步骤答:1.规范化输入的数据:所有属性落在相同的区间内;2,计算k个标准正交向量,即主成分;3,每个数据数据的向量都是这k主成分向量的线性组合;4,主成分按照重要程度降序排序。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答:1,忽略元组。当

7、类标号缺少是通常这么做,当每个属性缺省值的百分比变化很大时,他的效果非常差。2,人工填写空缺值。这种方法工作量大,可行性低。3,使用一个全局变量填充空缺值。4,使用属性的平均值填充空缺值。5,使用与给定元组属同一类的所有样本的平均值。6,使用最可能的值填充空缺值。(4)常见的数据归约策略包括哪些?答1,数据立方聚集,2,维归约;3,数据压缩;4,数据归约;5,离散化和概念分层产生;第六—七章挖掘频繁模式、关联和相关一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度(2)Aprior算法包括连接和剪枝两个基本步骤(3)项集的频

8、率是指包含项集的事务数(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)根据规则中所处理的值类型,关联规则

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。