weka实验报告(doc x页)

weka实验报告(doc x页)

ID:4316386

大小:386.50 KB

页数:13页

时间:2017-11-30

weka实验报告(doc x页)_第1页
weka实验报告(doc x页)_第2页
weka实验报告(doc x页)_第3页
weka实验报告(doc x页)_第4页
weka实验报告(doc x页)_第5页
资源描述:

《weka实验报告(doc x页)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘实验报告基于weka的数据分类分析实验报告姓名:学号:1实验基本内容本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式

2、数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Openfile按钮,打开刚才得到的“filename”文件,点击“save

3、”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arffdatafiles(*.arff)”,这样得到的数据文件为“breast-cancer.arff”。13数据挖掘实验报告2.2如何建立数据训练集,校验集和测试集通过统计数据信息,发现带有类标号的数据一共有286行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是训练集200行,校验集86行。类标号为‘no-recurrence-events’的数据有201条,而类标号为‘recurrence-events’的数据有85条,为了能在训练分类模型时有更全面的信息,所以决定把包含115

4、条no-recurrence-events类标号数据和85条recurrence-events类标号数据作为模型训练数据集,而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。另外,我们为了做预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。2.3预处理具体步骤第一步:把breast-cancer.arff文件复制一份,作为总的训练数据

5、集。文件名称为build_model.arff。第二步:从breast-cancer.arff文件数据里面选取分类标号为no-recurrence-events的86行数据作为校验数据集(validate_data.arff)。第三步:从把剩下的breast-cancer.arff文件改名为train_data.arff。第四部:由于老师给的全部都是有类标号的数据集,为了我们方便进行预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。13数据挖掘实验报告3.实验过程及结果截图3.1决策树分类用“Explorer”打开刚才得到的“t

6、rain-data.arff”,并切换到“Class”。点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是WEKA中实现的决策树算法。选择Cross-Validatioinfolds=10,然后点击“start”按钮:训练数据集训练决策树得出的结果使用不同配置训练参数,得到的实验数据:配置不同的叶子节点的实例个数实例数/叶节点23456准确率63.5%63.5%62.5%62.5%62.5%结果分析:使用决策树时,每个叶子节点最优的实例个数为2或者3。13数据挖掘实验报告校验数据集校验决策树得出的结果初步结果分析:使用决策树进行分类,对于已

7、知的86个类标号为no-recurrence-events的数据进行比较准确的分类,准确率达到86%;该数据一般,并且有一定的缺陷,因为该结果是以训练集的低准确率作为前提的。13数据挖掘实验报告3.2K最近邻算法分类点“Choose”按钮选择“laze->ibk”,这是WEKA中实现的决策树算法。选择Cross-Validatioinfolds=10,然后点击“start”按钮:训练数据集训练KNN得出的结果使用不同配置

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。