欢迎来到天天文库
浏览记录
ID:30499851
大小:482.50 KB
页数:6页
时间:2018-12-30
《基于Spark框架电力大数据清洗模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Spark框架的电力大数据清洗模型*王冲(国网内蒙古东部电力有限公司信息通信分公司,呼和浩特010020)摘要:针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。关键词:电力大数据;数据清洗;异常识别
2、;异常修正;Spark框架中图分类号:TM93文献标识码:B文章编号:1001-1390(2016)00-0000-00AdatacleaningmodelforelectricpowerbigdatabasedonsparkSparkframeworkWangChong(Information&TelecommunicationInformationTelecommunicationBranchCompany,,StateGridEastInnerMongoliaElectricPowerCOCo.,LTDLtd.,Hohhot01
3、0020,China)Abstract:AimingAbstract:Aimingatthedifficultiesoftheextractingoftheunifiedanomalydetectionpatternandthelowaccuracyandcontinuityoftheanomalydatacorrectionintheprocessoftheelectricalpowerbigdatacleaning,thedatacleaningmodeloftheelectricalpowerbigdatabasedonSpar
4、kframeworkisproposed.Firstly,thenormalclustersandthecorrespondingboundarysamplesareobtainedbytheimprovedCUREclusteringalgorithm.Then,theanomalydataidentificationalgorithmbasedonboundarysamplesisdesigned.Finally,theanomalydatamodificationisrealizedbyusingexponentialweigh
5、tingmovingmeanvalue.Thehighefficiencyandaccuracyisareprovedbytheexperimentofthedatacleaningofthewindpowergenerationmonitoringdatafromthewindpowerstation.Keywords:bigdataofElectricelectricpowerbigdata,Datadatacleaning,Anomalyanomalyidentification,Anomalyanomalymodificati
6、on,Sparkframework—————————————*基金项目:国家自然科学基金资助项目(51277023)0.引言电力大数据具有数量大、维度高,数据模式繁多等特征,在电力大数据的采集过程中,其不可避免的存在异常数据,对电力大数据清洗有很强的必要性[1]。国内外对电力大数据清洗研究主要有聚类和关联分析[2]、条件函数依赖[3]、马尔科夫模型[4]、DS证据理论[5]。大部分数据清洗技术都需要依赖数据模型本身构建异常数据识别规则,对检测到的异常数据做删除或均值填充处理,其缺点就是:破坏了数据的连续性、完整性、准确性。针对以上电力
7、大数据清洗难点,本文提出一种基于Spark框架的电力大数据清洗模型。相比一些电力大数据清洗模型,本文数据清洗模型减少人为干预,不需要根据数据关系模式设定识别规则,异常识别算法依赖于历史数据中的正常样本数据,且对异常数据修正是建立在其同一时间序列数据分析的基础上,最终能够实现对历史或实时数据中的异常数据清洗。1.基于Spark框架的电力大数据清洗模型电力大数据清洗是对检测到的电力大数据中异常数据进行修正的过程,利用Spark框架构建电力大数据清洗模型时分为以下几个阶段:数据准备、正常簇样本获取、异常数据识别、异常数据修正、修正数据存储。
8、数据准备即将存储在传统关系型数据库中的数据转存在适合于大数据处理的非关系型数据库中,然后加载到Spark的弹性分布式数据集(RDD)中;通过抽取一定数量的电力大数据样本,应用层次聚类算法将其中的异常点抽取,获取可用于实现
此文档下载收益归作者所有