matlab学习系列012.数据预处理1剔除异常值与平滑处理

matlab学习系列012.数据预处理1剔除异常值与平滑处理

ID:23062609

大小:157.81 KB

页数:15页

时间:2018-11-03

matlab学习系列012.数据预处理1剔除异常值与平滑处理_第1页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第2页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第3页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第4页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第5页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第6页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第7页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第8页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第9页
matlab学习系列012.数据预处理1剔除异常值与平滑处理_第10页
资源描述:

《matlab学习系列012.数据预处理1剔除异常值与平滑处理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、012.数据预处理(1)——剔除异常值及平滑处理测量数据在其采集与传输过程中,由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失,这种数据称为异常值。为了恢复数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数据(1)剔除异常值;另外,无论是人工观测的数据还是由数据采集系统获取的数据,都不可避免叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)。为了提高数据的质量,必须对数据进行(2)平滑处理(去噪声干扰);(一)剔除异常值。注:若是有空缺值,或导入Matlab数据显示为“N

2、aN”(非数),需要①忽略整条空缺值数据,或者②填上空缺值。填空缺值的方法,通常有两种:A.使用样本平均值填充;B.使用判定树或贝叶斯分类等方法推导最可能的值填充(略)。一、基本思想:规定一个置信水平,确定一个置信限度,凡是超过该限度的误差,就认为它是异常值,从而予以剔除。二、常用方法:拉依达方法、肖维勒方法、一阶差分法。注意:这些方法都是假设数据依正态分布为前提的。1.拉依达方法(非等置信概率)如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。其中,为样本均值,为样本的标准偏差。注:适合大样

3、本数据,建议测量次数≥50次。代码实例(略)。2.肖维勒方法(等置信概率)在n次测量结果中,如果某误差可能出现的次数小于半次时,就予以剔除。这实质上是规定了置信概率为1-1/2n,根据这一置信概率,可计算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列近似公式计算:Tab1.肖维勒系数表n3456789101112ωn1.381.531.651.731.801.861.921.962.002.03n13141520304050100200500ωn2.072.102.132.242.392

4、.492.582.813.023.20如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系数之积,则该测量值被剔除。例1.利用肖维勒方法对下列数据的异常值(2.5000)进行剔除:1.50341.50621.50341.50241.49852.50001.50071.50671.49931.4969上述数据保存于文件erro.dat代码:x=load('error.dat');n=length(x);subplot(2,1,1);plot(x,'o');title('原始数据')axis([0,n

5、+1,min(x)-1,max(x)+1]);w=1+0.4*log(n);yichang=abs(x-mean(x))>w*std(x);%若用拉依达方法,把w改成3即可,但本组数据将不能成功剔除异常值。x(yichang)=[];saveerrornew.datx-ASCIIsubplot(2,1,2);plot(x,'rs');title('异常值剔除后数据');axis([0,n+1,min(x)-1,max(x)+1]);运行结果:x=1.50341.50621.50341.50241.4

6、9852.50001.50071.50671.49931.4969y=1.50341.50621.50341.50241.49851.50071.50671.49931.49691.一阶差分法(预估比较法)用前两个测量值来预估新的测量值,然后用预估值与实际测量值比较,若大于事先给定的允许差限值,则剔除该测量值。预估值比较判别:注:该方法的特点是(1)适合于实时数据采集与处理过程;(2)精度除了与允许误差限的大小有关外,还与前两点测量值的精确度有关;(3)若被测物理量的变化规律不是单调递增或单调递减函

7、数,这一方法将在函数的拐点处产生较大的误差,严重时将无法使用。(二)数据的平滑处理对于一组测量数据(xi,yi)i=1,…,n,不要直接就想着求出的拟合多项式的线性参数,而是要先平滑处理去掉“噪声”。平滑处理在科学研究中广泛使用,它可以减少测量中统计误差带来的影响,尤其被用于无法利用多次重复测量来得到其平均值的情况和当yi随xi有徒然变化的那些测量段。1.“(2n+1点)单纯移动平均”平滑滤波取出以yi为中心的前后各n个数据(yi-n,…,yi-1,yi,…yi+n)求平均值代替yi,即优点:方法简

8、单,计算方便。缺点:方法产生误差会造成信号失真;前后各n个数据无法平滑。适用性:适用于变化缓慢的数据。注:n越大平滑效果越好,但失真也越大。例1.“9点单纯移动平均”平滑滤波代码:%建立“n点单纯移动平均”的滤波函数%注意函数要单独保存为与函数名同名的.m文件functionY=smooth_data(y,n)m=length(y);j=1;fori=(n-1)/2+1:(m-(n-1)/2)p=i-(n-1)/2;q=i+(n-1)/2;Y(j)=sum(y(p:q

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。