基于半监督学习的数据流分类算法

基于半监督学习的数据流分类算法

ID:14651041

大小:491.00 KB

页数:6页

时间:2018-07-29

基于半监督学习的数据流分类算法_第1页
基于半监督学习的数据流分类算法_第2页
基于半监督学习的数据流分类算法_第3页
基于半监督学习的数据流分类算法_第4页
基于半监督学习的数据流分类算法_第5页
资源描述:

《基于半监督学习的数据流分类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于半监督学习的数据流分类方法黄树成1,2朱宇光2董逸生11(东南大学计算机科学与工程学院,南京210096)2(常州工学院计算机科学与工程系,江苏常州213006)(schuang6@sohu.com)摘要在数据流上建立有效的分类模型具有许多应用。流数据的动态性给业界提出了两个关键问题:如何监测数据流的变化;一旦发生显著变化,如何高效地组织足够的训练数据,调整无效的模型。本文提出了一个基于半监督学习的分类算法,较好地解决了这些问题。设计了一种识别显著变化的可靠方法;提出了一个基于NaïveBayes的EM算法,利用较少的类标

2、数据来扩大训练数据集,从而极大地降低类标数据的需求量。基于新的训练数据可以构建一个有效的分类器。实验结果证明了算法的优势。关键词数据流分类;显著变化;类标数据;半监督学习;基于NaïveBayes的EM算法。中图法分类号TP311.13Semi-supervisedLearningBasedApproachforClassifyingDataStreamsHuangShucheng1,2DonyYisheng11(SchoolofComputerScienceandEngineering,SoutheastUniversity

3、,Nanjing,210096)2(DepartmentofComputerScienceandEngineering,ChangzhouInstituteofTechnology,JiangsuChangzhou,213006)AbstractMiningondatastreamsandconstructingaclassificationmodelhasfoundmanyapplications.Thedynamicnatureofstreamingdataposestwokeyissuesfacingassociated

4、communities:oneishowtomonitorthepotentialchangesoccurringindatastreams,andtheotherishowtocollectsufficientlabeleddatatoadjusttheoutdatedmodelforadaptingtosignificantchanges.Inthispaper,asemi-supervisedlearningbasedalgorithmisproposedtoattacktheseproblems.Wedeviseare

5、liablemethodformonitoranddifferingsignificantchangesfromnoisychanges.Wheneverthesignificantchangespresent,anEMwithnaïveBayesalgorithmisemployedtoaugmentcurrentlyinsufficientlabeleddataintoasufficienttrainingdataset.Sotheneedforlabeleddataissharplyreduced,andaneffect

6、iveclassifiercanbegeneratedbasedonthenewtrainingdata.Experimentresultsconfirmtheadvantagesofthealgorithm.KeywordsDataStreamsClassification;SignificantChanges;LabeledData;Semi-supervisedLearning;EMwithNaïveBayesAlgorithm.1.引言数据流挖掘是一个研究热点[1]。数据流的动态性给数据流分类提出了极大的挑战,关键是如

7、何监测潜在的变化和组织新的训练数据响应数据流发生的变化。许多数据流分类方法,比如[2,3,4],假设类标数据容易获得且随时可以挖掘。但在实际应用中,数据的类标很难及时得到。WeiF.等人在[5,6]中提出主动挖掘的思想,但检测变化的方法缺乏可靠性,而且模型的更新依赖于类标数据的数量。我们提出了一种识别变化的方法和一种基于NaïveBayes的EM算法,可以降低更新分类模型对类标数据的需求量。实验证明了算法的优点。2.数据流变化的监测和识别2.1显著变化和噪声变化假设一个由两类:“+”和“-”数据组成的数据流,如图1,按时间顺序

8、将它分成若干数据块,当前正处于时刻,的分类模型为一个决策树,如图2所示。为了简单起见,图中仅给出四个叶子节点。每个叶子节点包含相应的分类信息,比如表示第二个叶子节点将所有到达它的个对象以概率的准确率分成“-”类,。对整个的平均分类错误率可计算为:。对于数据块来说,为性能最优的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。