方1052-数据仓库与数据挖掘实验报告

方1052-数据仓库与数据挖掘实验报告

ID:30814718

大小:1.58 MB

页数:17页

时间:2019-01-03

方1052-数据仓库与数据挖掘实验报告_第1页
方1052-数据仓库与数据挖掘实验报告_第2页
方1052-数据仓库与数据挖掘实验报告_第3页
方1052-数据仓库与数据挖掘实验报告_第4页
方1052-数据仓库与数据挖掘实验报告_第5页
资源描述:

《方1052-数据仓库与数据挖掘实验报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、石家庄铁道大学四方学院学生实验报告书实验课程名称学生专业班级数据仓库与数据挖掘方1052信管学生学号学生姓名指导老师姓名刘桂贤2013-2014学年第1学期实验项目名称数据仓库的设计、实现及多维分析实验成绩实验日期2013年9月21H第一部分:实验分析与设计—•、实验内容描述问题描述:此实验为设计型实验,选择一种数据仓库管理系统,如SQLServerAnalysisManager进行数据仓库的设计、实现,并进行多维数据分析。二、实验基本原理与设计三、主要仪器设备及软件环境WindowsxpSQLServer2000第二部分:实验调试与结果分析一、调

2、试过程(包括调试方法描述、实验数据记录,实验现象记录,实验过程发现的问题等)如何向多维数据集添加度量值:度量值是要进行分析的数据库中的量化值。常用的度量值为销伟、成木和预算数据。度最值根据多维数据集不同的维度类别进行分析。1.在多维数据集向导的“欢迎”步骤,单击“卜•一步”按钮。2.在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击"sales_fact_1998”。3•单击“浏览数据”按钮可以查看“sahsjact」998”表中的数据。数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。4.若要定义多维数据集的度量值,在“

3、事实数据表数据列”下,双击“store_sales”。对“store_cost”和“imit_sales”列重复此步骤,然后单击“下一步”按钮。二、实验结果及分析(包括结果描述、实验现象分析、影响因素讨论、综合分析和结论等)运行结果为:第一步,建立系统数据源连接第二步,启动AnalysisManager第三步,建立数据库和数据源笫四步建立多维数据集1、如何建立时间维度2、如何建立产品维度3、如何建立客户维度4、如何生成商店维度5、完成多维数据集的牛•成6、设计存储和处理多维数据集7、浏览多维数据集数据(1)使用多维数据集浏览器查看多维数据集数据(2

4、)替换网格中的维度(3)按时间筛选数据(4)深化三、实验小结、建议及体会基于“学生成绩分析”主题数据仓库多维模型的建立,能很好地满足高校老师和学生对学生成绩信息进行快速杏询以及分析的需要,为更多其他主题数据仓库的建立奠定了基础。然而各主题数据仓库的建立,只是一•个开始,我们下一步工作将是在建立好的数据仓库基础上进行数据挖掘,进一步去发现隐藏在这些学生成绩信息数据中更加有用的知识、规律和模式,使之为学校学生成绩分析工作服务。将数据仓库技术应川到学牛信息管理屮,使我了解了数据仓库的应川以及如何创建数据仓库。实验项目名称Apriori算法实验成绩实验日期

5、2013年9月28日第一部分:实验分析与设计一、实验内容描述(问题域描述)此实验为综合型实验,要求学生综合利用先修课程高级程序设计语言、数据库、算法设计与分析,与本门数据挖掘课程的知识,选择一种编程工具,如VisualC++,实现经典挖掘算法Apriori或算法k-Means。二、实验基木原理与设计(包括实验方案设计,实验手段的确定,试验步骤等,用便件逻辑或者算法描述)Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实:算法使川频繁项集性质的先验知识。Apriori使川一种称作逐层搜索的迭代方法,斤-项集川于探索(

6、佔1)-项集。首先,找出频繁1-项集的集合。该集合记作厶1。U用于找频繁2-项集的集合力2,而厶2用于找力3,如此下去,直到不能找到频繁4项集。找每个以需要一次数据库扫描。为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:(1)若X是频繁项集,则x的所有子集都是频繁项集。(2)若x是非频繁项集,则X的所有超集都是非频繁项集。2.2算法描述:算法:Apriori算法,使用逐层迭代找出频繁项集。输入:事务数据库D;最小支持度阈值min_supo输出:D中的频繁项集L。1)LI=find_frequent_l_it

7、emsets(D);2)for(k=2;Lk-1工;k++){3)Ck=aproirigen(Lk~l,minsup);4)foreachtransactiontD{//seanDforcount5)Ct=subset(Ck,t);//getsubsetsoftthatarecandidates6)foreachcandidatecCt7)c.count++;8)}9)Lk={cCk

8、c.count2min_sup}10)}11)returnL=UkLk;从事务数据库D中挖掘出所冇频繁项集。支持度大于最小支持度min_sup的项集Itemset称为

9、频集FrequentItemseto首先需婆挖掘出频繁1-项集;然后,继续釆用递推的方式来挖掘频繁k-项集(k>l),具体

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。