数据挖掘报告.doc

数据挖掘报告.doc

ID:48449123

大小:95.03 KB

页数:10页

时间:2020-01-30

数据挖掘报告.doc_第1页
数据挖掘报告.doc_第2页
数据挖掘报告.doc_第3页
数据挖掘报告.doc_第4页
数据挖掘报告.doc_第5页
资源描述:

《数据挖掘报告.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、哈尔滨工业大学数据挖掘理论与算法实验报告(2016年度秋季学期)课程编码S1300019C授课教师邹兆年学生姓名汪瑞学号16S003011学院计算机学院一、实验内容决策树算法是一种有监督学习的分类算法;kmeans是一种无监督的聚类算法。本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中,比较了不同初始质心产生的差异。本实验主要使用python语言实现,使用了sklearn包作为实验工具。二、实验设计1.决策树算法1.1读取数据集本次实验主要使用的数据集是汽车价值数据。有6个属性,命名和属性值分别如下:buying:v

2、high,high,med,low.maint:vhigh,high,med,low.doors:2,3,4,5more.persons:2,4,more.lug_boot:small,med,big.safety:low,med,high.分类属性是汽车价值,共4类,如下:classvalues:unacc,acc,good,vgood该数据集不存在空缺值。由于sklearn.tree只能使用数值数据,因此需要对数据进行预处理,将所有标签类属性值转换为整形。1.2数据集划分数据集预处理完毕后,对该数据进行数据集划分。数据集划分方法有hold-out法、k-fold交叉验证法以及有

3、放回抽样法(boottrap)。Hold—out法在pthon中的实现是使用如下语句:其中,cv是sklearn中cross_validation包,train_test_split方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可选项。该方法分别返回,训练集、测试集在原数据集中的序号以及对应的所属类别的序号。K-flod法实现较为简单。如下:xl为数据集大小,n_folds为划分若干折,一般可用10-fold验证。返回值loo中是包含两个元组的列表,这两个元组分别是train_index和test_index的列表。Bootstrap法实现如下,其与k-fold方

4、法类似。1.3创建和训练决策树及评价数据集划分完毕后,就需要建立决策树并结合训练集来训练决策树。建立决策树只需要调用tree.DecisionTreeClassifier()方法即可。它有一些参数可以根据需求进行设置。Criterion选项,默认是“Gini”,表示决策树非叶节点划分依据是根据Gini指数表示划分的纯度。可选值有“entropy”,用信息增益来衡量划分的优劣。Sklearn.tree中没有支持用错分类误差法来衡量节点划分的优劣。min_samples_split选项,是指一个非叶节点继续划分所需要的最小样本数,如果该节点下的待分样本小于该值,则终止该节点划分,节点被

5、标记为占多少的类,形成叶节点。它属于提前抑制决策树增长的方法。max_depth选项,是指该训练决策树时允许达到的最大深度。默认深度是一直划分到节点纯净或者达到min_samples_split的要求。因此该选项是实验中有必要进行设置的项,以控制决策树过拟合,它属于前剪枝的操作。min_impurity_split选项,是指划分某节点时所需要的最低不纯度阈值,如果某一节点划分的不纯度低于该值,表明该节点已经可以被接受成为叶节点,无须继续划分。它也是一种提前停止增长的策略。决策树建立和训练的具体实例如下(用10-fold做例子):由于实验采用的是10-fold交叉验证,因此最终准确率

6、应该是每一折准确率的平均值。上述代码也包含了训练决策树和使用测试集验证决策树的代码,即:该实验的最终准确率约是:testrightrate:0.81651.4基于树桩的Adaboost算法在python中同样也实现了adaboost算法,需要使用AdaBoostClassifier()方法构造它。它有若干可选项:base_estimator是设置adaboost算法使用的弱分类器,默认是一层决策树,即树桩。n_estimators是设置迭代次数,每一次迭代时该算法选择数据集中的某一特征作为树桩的分类节点,训练集中被错误分类的记录将被增加权重,正确分类的记录将被降低权重,权重更新后的

7、数据集将用于下一次迭代。初始时各个记录权重均为1/n,n为记录数目。主要的实现语句如下:……最终在测试集上,由adaboost生成的强分类器的准确率为:2.kmeans算法2.1读取数据集Kmeans算法的数据集是酒的品种数据。有13个属性,一个分类属性。共分成3类,数据集前58号为第一类,59-129号为第二类,130-177号为第三类。2.2初始化kmeans参数Python中通过调用sklearn.cluster包中的kmeans类来创建方法实例。需要设置的主要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。