面向数据流挖掘算法的研究与改进.pdf

面向数据流挖掘算法的研究与改进.pdf

ID:50145788

大小:4.60 MB

页数:60页

时间:2020-03-06

面向数据流挖掘算法的研究与改进.pdf_第1页
面向数据流挖掘算法的研究与改进.pdf_第2页
面向数据流挖掘算法的研究与改进.pdf_第3页
面向数据流挖掘算法的研究与改进.pdf_第4页
面向数据流挖掘算法的研究与改进.pdf_第5页
资源描述:

《面向数据流挖掘算法的研究与改进.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、'i钟'":Y巧為;祭薄诚殘貧UV與齡碍轉节\;.巧.’'八;..辟聲'i等v吃赴?兵嗦聲;V兰'-..:密级;、单位代码^om?,...若;..‘.\藻某;輯瓜一;讀"'、輯:於奪謂嚴胃.鄭別r屬奪戀'齡議-、某说騎交;;聲致窝V写;硕女俗女;考皮營像:#鶴;_V._禱霉議.....、;...'、/:如!!.说/中:i4舉明.'^帥颐扇?......:;、;:.嗦屯.>;心艇满1壓,父碳缘勢,;.:社感幽;灣シシ旗熟翁、:鶴邊八.起.:.嘴於被等

2、;较r轉诚酶、為豕.d.>.‘—>其、。心.V:巧0亢’、-'--'X'记:某瓦非.数据流挖掘算法的研究与改进论文题目:面向^换碟沪..,麵.,轉'';^-'....片.V心:Vry為诗:的券證,。為'—S?VVV气堂号1212043027;.'二為.在.:'‘、.姓名巧.淫^V/蘇;辕‘主.A.记,...导11巧室里?.-蔡奔苗聲.古....齡.感祭群^'!攀:焉参^.遊;:专业学位类别XMM±_—

3、_:;1'"■'^^■-v-.:.1.I樂芙型生幸□制’>';...供讯来巧圃业(域)计专领算概^醜議養p:去'二0—五H曰期月论文提交年也.杳声!,种杂\粹:.一懿w:巧说讀和单'玲'^‘'—.;:.--,。?..^觀心共W\北於、.^:秦户:哨rStudyandImprovementofMiningAlgorithmonDataStreamThesisSubmittedtoNanjingUniversityofPostsandTelec

4、ommunicationsfortheDegreeofMasterofEngineeringByQIANRuiSupervisor:Prof.ZONGPingMarch2015摘要大数据时代的数据挖掘面临着新的挑战,大量以数据流形式生成的原始信息希望得到即时准确地知识发现和提取。这些信息由于规模和时效等方面问题无法全部存入内存或外部存储,因此无法使用传统的数据挖掘技术对其归纳分析。网络环境下普遍出现的高速数据流模型需要一种能够在有限内存中对快速传输的数据做出实时响应的单遍扫描挖掘算法。本文根据工程项目的应用需求

5、,从分析传统数据挖掘和数据流挖掘的异同点着手,分析了数据流挖掘的背景与不同应用模型下的经典挖掘算法,进而分别从基础应用、权衡指标、抽样大小和连续属性处理等方面研究了基于HoeffdingTrees的决策树分类算法。最后在平稳数据流领域,重点针对VFDT经典算法对连续属性处理不足的问题,从连续属性离散化的角度提出了一种改进的VFDTCA算法,并采用在连续属性最佳分割点的选取上引入Fayyad边界点原理的方法进行算法的优化。通过分析和验证,面对含有连续属性的平稳数据流样本,使用基尼指数作为权衡量并引入Fayyad边

6、界点原理的VFDTCA改进算法在构造决策树模型和预测分类的性能上均有更好的表现。关键词:数据流,数据挖掘,分类,决策树,Hoeffding边界IABSTRACTDataminingisfacingnewchallengesinBigDataera.Knowledgeneedstobeaccuratelydiscoveredandextractedfromdatastreamsgeneratedbyagrowingnumberofrawdatainstantly.Duetomagnitudeissueandtim

7、eefficiency,theserawdatadonotfitintothememoriesorexternalstoragesanymore.Therefore,traditionaldataminingtechniquecannotbeusedtosumupdatastreamsintodiversityanalyses.Widespreadhigh-speeddatastreammodelrequiresasingle-passminingalgorithmwhichiscapableofhandlin

8、gthefasttransferringdatainalimitedmemorywithareal-timeresponse.Accordingtotheproject'sneeds,thisthesisanalysesthebackgroundofdatastreamminingandclassicalalgorithmsfordifferentminingmodelsbasedon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。