基于多分类器的不完整数据的分类关键技术研究.pdf

基于多分类器的不完整数据的分类关键技术研究.pdf

ID:35172309

大小:3.79 MB

页数:59页

时间:2019-03-20

基于多分类器的不完整数据的分类关键技术研究.pdf_第1页
基于多分类器的不完整数据的分类关键技术研究.pdf_第2页
基于多分类器的不完整数据的分类关键技术研究.pdf_第3页
基于多分类器的不完整数据的分类关键技术研究.pdf_第4页
基于多分类器的不完整数据的分类关键技术研究.pdf_第5页
资源描述:

《基于多分类器的不完整数据的分类关键技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于多分类器的不完整数据的分类关键技术研究RESEARCHONINCOMPLETEDATACLASSIFICATIONBASEDONMULTIPLECLASSIFIERS孙铭哈尔滨工业大学2018年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.6密级:公开工程硕士学位论文基于多分类器的不完整数据的分类关键技术研究硕士研究生:孙铭导师:王宏志教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP3

2、91.1U.D.C:681.3DissertationfortheMasterDegreeinEngineeringRESEARCHONINCOMPLETEDATACLASSICIFATIONBASEDONMULTIPLECLASSIFIERSCandidate:SunMingSupervisor:Prof.WangHongzhiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofCom

3、puterScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要分类问题在数据挖掘、机器学习和模式识别等很多领域中都是一个基础而重要的问题。目前为止,有很多算法都可以处理分类问题。然而,它们都是面向完整数据的。不完整的数据却广泛存在于各个领域,包括社会科学、计算机视觉和生物系统。例如,问卷调查中很多用户会选择部分回应的方式,避开一些问题以保护个人隐私,这就会导致

4、数据集不完整且存在多种缺失模式。缺失值对于大数据分析有十分消极的影响。目前的方法大致为忽略法和填补法。忽略法是将数据集中有缺失值的样本忽略,只考虑完整的样本,但这种方法会造成信息的丢失,同时如果数据集中存在大量的缺失,分类性能严重降低。而在缺少额外知识抑或数据集的特征属性之间关联不强的情况下,对缺失值的填补也不精准。因此,考虑到应用场景众多且现有解决办法不完善,不完整的数据的分类是十分重要的一个课题。本文针对这一课题,提出了一个较为新颖的思路:不对不完整数据集进行填补或者忽略缺失样本,而是直接在不完整数据集上进行操作。本文将采用集成学习的

5、方法,将不完整数据集中的每一个完整视图视作一个训练数据集,使用针对完整数据的分类算法训练成基本分类器。当待分类元组出现时,每个基本分类器会给出一个分类结果,然后采取合理的组合方式获得最终分类决定。本文着重作出了以下贡献:(1)由于不完整数据集的完整视图数目庞大,且会影响算法的效率和有效性。本文对完整视图进行了筛选,用合适的完整视图的组合去代替全部完整视图,有效缩减完整视图的个数,在分类精度小幅度波动的情况下,提高分类的时间性能。本文首先在�2的时间内找到全部的完整视图,接着形式化定义缩减完整视图个数问题,证明了该问题是NP难的,然后针对问

6、题提出了近似算法,并证明出近似比为ln

7、�

8、+1。对比实验验证了筛选算法的有效性。(2)由于基本分类器在最终分类决定中的地位不尽相同,本文提出了两种合理的权重分配方法区分基本分类器之间的差异。其一使用了两个明显会影响基本分类器分类性能的因素,样本个数和特征属性与类别间的相关程度。其二使用了学习的方法,更为全面,有效避免了对于影响因素的忽略,也避免了复杂的定量工作。实验表明,两种权重分配方式对于基本分类器的组合都优于投票表决法。(3)由于本文前两部分的算法都是针对于待分类元组是完整的情况,本文-I-哈尔滨工业大学工学硕士学位论文还提出了面向

9、不完整的待分类元组的分类方法。考虑到待分类元组中缺失值的存在,将会使部分基本分类器不可用。本文引入了MAT结构存放训练集,使待分类元组可以迅速确定自己可使用的完整视图,同时为了避免因基本分类器个数减少而造成的分类性能降低,本文将使用Boosting的组合方式,迭代训练基本分类器,获得分类结果。本文将此算法与现有的解决办法进行了对比,在时间性能和分类性能上验证了算法的有效性。关键词:不完整数据;缺失值;分类;多分类器;提升-II-哈尔滨工业大学工学硕士学位论文AbstractClassificationisafundamentalprobl

10、eminmanyfields,suchasdatamining,machinelearningandpatternrecognition.Thereareagreatnumberofclass

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。