基于gep和rs的大数据集分类模型研究

基于gep和rs的大数据集分类模型研究

ID:33389189

大小:4.29 MB

页数:56页

时间:2019-02-25

基于gep和rs的大数据集分类模型研究_第1页
基于gep和rs的大数据集分类模型研究_第2页
基于gep和rs的大数据集分类模型研究_第3页
基于gep和rs的大数据集分类模型研究_第4页
基于gep和rs的大数据集分类模型研究_第5页
资源描述:

《基于gep和rs的大数据集分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广西师范学院硕士学位论文(申请理学硕士学位)论文题目基于GEP和RS的大数据集分类模型研究ResearchonLargeDatabaseClassificationModelsBasedonRSandGEP专业:计算机应用技术学位申请人:胡卉颖导师:钟智教授元昌安教授答辩委员会成员(签名)主席:委员:二零一二年六月广西师范学院硕士学位论文2009级计算机应用技术胡卉颖摘要分类作为数据分析形式的一种,它可以从大量的数据中提取描述所有对象的模型。由于分类是利用已知的模型对新的数据进行预测,因此它是一个很好的有监督的学习过程。一个好的分类规则能够让我们更好的认识这个类,同时

2、有效的利用类中的这些数据。分类是数据挖掘中最重要的任务,它通过分析已知数据提取分类模型,然后使用该分类模型将接下来要分类的数据一一映射到指定的分类规则当中。分类已经被广泛的应用到机器学习、神经网络、性能等方面的预测。实际上分类的训练集大多是连续的、有噪音的、不完整的,这往往会影响分类的精度。为了提高分类的精度,本文首先采用临界值等宽区间离散法将连续数据离散化,然后利用粗糙集这一能够对不完整、冗余、缺失的知识进行处理的理论方法所具有的知识分类的特点,结合基因表达式编程的进化策略,重点研究在数据预处理层去除冗余、不完整数据,提出了一种基于基因表达式编程的粗糙集属性约简研究

3、算法(AttributeReductionofRoughSetBasedonGeneExpressionProgramming,简称ARRS_GEP),最后针对当前分类规则提取存在规则繁多的问题,提出一个新的分类模型。该模型包括对数据准备、数据预处理、规则提取、规则测试、规则评价等过程。本文所作主要工作:(1)系统的阐述了分类、基因表达式编程和粗糙集理论的相关知识及研究现状,对粗糙集的核心内容属性约简问题进行了详细的介绍,指出遗传算法约简的不足。将遗传算法与基因表达式编程进行了比较,找出这两种进化算法的区别。(2)在对基因表达式编程进行理论分析的基础上,研究如何改进属

4、性约简算法,提出了基于GEP的约简算法,即ARRS_GEP算法。采用I基于GEP和RS的大数据集分类模型研究不同的约简方法进行实验,验证ARRS_GEP算法的有效性。(3)分类问题中的很多算法都要求数据为离散的,比如,粗糙集等,本文针对这一问题提出采用临界值等宽区间离散法对连续特征进行离散。同时,对提取分类规则时存在的噪音数据的问题进行分析,提出在预处理层使用ARRS_GEP约简算法进行交叉、变异、重组、插串等操作,对条件属性进行约简,约简后再使用分类算法提取规则。(4)采用对某年上市公司失败的预测,对本文提出的分类模型进行验证,实验表明该模型减少了分类规则的复杂性,

5、提取的分类规则简单,属性少。这表明该模型在知识约简和规则提取中是有效性。关键字:粗糙集,基因表达式编程,约简,规则,分类II广西师范学院硕士学位论文2009级计算机应用技术胡卉颖ABSTRCTClassification,asoneofdataanalysisways,canextractthemodelwhichcandescribeallobjectsfromthelargeamountofdata.Becauseofusingtheknownmodeltopredictnewdata,Classificationisafavourablesupervisedle

6、arningprocess.Agoodclassificationrulecanmakeusnotonlyunderstandthisclassbetter,butalsousethesedataeffectively.Theclassificationisanimportanttaskindatamining,itextractsamodelbyanalyzingtheknownattributesoftrainingset.Byusingthemodel,wecanmapthedatathatwillbeclassifiedtothespecifiedclassi

7、ficationruleone-on-one.Classificationhasbeenwidelyappliedtomachinelearning,neuralnetworksandperformanceprediction.Inmostcases,thetrainingsetofclassificationarecontinuous,noisyandincompleteactually,whichwillaffecttheaccuracyofclassification.Inordertoimprovetheaccuracyofclassific

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。