电子科大数据挖掘作业1-6.doc

电子科大数据挖掘作业1-6.doc

ID:51852987

大小:1.68 MB

页数:13页

时间:2020-03-17

电子科大数据挖掘作业1-6.doc_第1页
电子科大数据挖掘作业1-6.doc_第2页
电子科大数据挖掘作业1-6.doc_第3页
电子科大数据挖掘作业1-6.doc_第4页
电子科大数据挖掘作业1-6.doc_第5页
资源描述:

《电子科大数据挖掘作业1-6.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘课后习题数据挖掘作业1——6第一章绪论1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。③市场业中应用数据挖掘技术进行市场定位、消

2、费者分析、辅助制定市场营销策略等。2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据

3、。第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据模型上的OLAP操作。l数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。l多维数据模型上的OLAP操作a)上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约b)下卷(drill-down):上卷的逆操作  由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新

4、的维来实现c)切片和切块(sliceanddice) 投影和选择操作d)转轴(pivot)  立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列2)OLAP多维分析如何辅助决策?举例说明。OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化值,经理通过查询变化值来做决策。例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的

5、分析和追踪查询可以发现问题并解决3)举例说明OLAP的多维数据分析的切片操作。切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片)。第三章数据预处理1)假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用按箱

6、平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对于给定的数据,该技术的效果。已知数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为3,划分为(等频)箱:箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,33箱7:35,35,35箱8:35,36,40箱9:45,46,52箱1

7、0:70用箱均值光滑:箱1:15,15,15箱2:18,18,18箱3:21,21,21箱4:24,24,24箱5:27,27,37箱6:33,33,33箱7:35,35,35箱8:37,37,37箱9:48,48,48箱10:70(b)对于数据平滑,还有哪些其它方法?(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。2)使用习题1)给出的age数据,回答以下问题:(a)使用min-max规范化,将age值35转换到[0.0,

8、1.0]区间。已知最大值为70,最小值为13,则可将35规范化为:

9、35-13

10、70-13=0.386(b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年。已知均值为30,标准差为12.94,则可将35

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。