基于Spark的孤立森林算法并行化研究

基于Spark的孤立森林算法并行化研究

ID:37032982

大小:2.43 MB

页数:65页

时间:2019-05-15

基于Spark的孤立森林算法并行化研究_第1页
基于Spark的孤立森林算法并行化研究_第2页
基于Spark的孤立森林算法并行化研究_第3页
基于Spark的孤立森林算法并行化研究_第4页
基于Spark的孤立森林算法并行化研究_第5页
资源描述:

《基于Spark的孤立森林算法并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学号M201676194学校代码10487密级硕士学位论文基于Spark的孤立森林算法并行化研究学位申请人:刘高学科专业:软件工程指导教师:武剑洁副教授答辩日期:2018.12.20AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringResearchonParallelizationofIsolationForestAlgorithmBasedonSparkCandidate:LiuGaoMajor:SoftwareEnginee

2、ringSupervisor:Assoc.Prof.WuJianjieHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaDecember,2018华中科技大学硕士学位论文摘要异常检测是数据挖掘领域重要的研究方向之一,在实际业务场景下具有十分广泛的应用。传统的基于统计与概率模型[1]、线性模型[2]以及基于相似度[3]的异常检测模型大多数针对正常实例构建模型,不符合模型分布的正常实例将被识别为异常实例,因此可能出现淹没效应。随着互联网的高速发展,互联网的设备越来越多,数据源源不断地产生且呈现指

3、数级增长,在海量数据中进行异常检测是一个极具挑战性的问题。传统方法大都计算复杂度较高,只能适用于低维和小数据量的数据[4]。孤立森林(IsolationForest,简称IForest)[4]基于“异常点是孤立的”的思想,递归地对数据空间进行切割来构造森林中的树,异常点在森林中更容易地被访问到。IForest是一种非参数检验的无监督算法,解决了带标记数据稀少的问题;另外IForest是一种快速的集成算法,具有高精确度和线性时间复杂度[5]。ApacheSpark是一个基于弹性内存数据集的分布式计算框架[6],其上层的机器学习组件ML提供了实现并行算法的条件。本论

4、文基于Spark实现了并行的IForest算法库(Spark-IForest),在训练阶段利用IForest中每棵树的内部构造过程相互独立的特点,通过维护全局切分信息对分布式数据集中的训练数据进行抽样,实现并行构造树,从而训练出IForestModel;在异常预测阶段,数据之间没有关联关系,对分布式数据集的待预测数据根据IForestModel并行异常预测。为了验证Spark-IForest在准确性合格的情况下,异常预测性能得到了提升,本论文进行了实验和分析。通过性能测试和扩展性测试,得出Spark-IForest在AUC指标上能够取得满意的效果,且在多核并行场

5、景下,Spark-IForest在训练阶段和预测阶段的计算速度与单机版的Spark-IForest和Sklearn-IForest相比有很大提升;在一定条件范围内,Spark-IForest的计算性能会随着并行度的增加而增加。因此,Spark-IForest为海量数据场景下的快速异常检测提供了可能。关键词:孤立森林ApacheSpark异常检测并行计算I华中科技大学硕士学位论文AbstractAnomalydetectionisoneoftheimportantresearchdirectionsinthefieldofdataminingandithasawi

6、derangeofapplicationsinactualbusinessscenarios.Traditionalstatisticalandprobabilisticmodels[1],linearmodels[2],andanomalydetectionmethodsbasedonsimilarity[3]mostlybuildmodelsfornormalinstances,andnormalinstancesthatdonotconformtothedistributionofthemodelwillbeidentifiedasanomalousins

7、tances.Therefore,thereisafloodingeffect.WiththerapiddevelopmentoftheInternet,moreandmoredevicesareconnectedtotheInternet,thusdataisconstantlygeneratedandexploding.Itisaverychallengingproblemtodetectanomaliesinmassivedata.Mostofthetraditionalmethodshavehighcomputationalcomplexityandca

8、nonlybeappli

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。