基于图形分析方法的函数型数据异常值检验实证研究.pdf

基于图形分析方法的函数型数据异常值检验实证研究.pdf

ID:55399580

大小:560.19 KB

页数:7页

时间:2020-05-15

基于图形分析方法的函数型数据异常值检验实证研究.pdf_第1页
基于图形分析方法的函数型数据异常值检验实证研究.pdf_第2页
基于图形分析方法的函数型数据异常值检验实证研究.pdf_第3页
基于图形分析方法的函数型数据异常值检验实证研究.pdf_第4页
基于图形分析方法的函数型数据异常值检验实证研究.pdf_第5页
资源描述:

《基于图形分析方法的函数型数据异常值检验实证研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第29卷第6期Statis统tics计&与In信for息mat论ion坛Forum2014年6月Vo1.29No.6Ju1.,2014【统计理论与方法】基于图形分析方法的函数型数据异常值检验实证研究米子川(山西财经大学统计学院,山西太原030006)摘要:函数型数据本质上是一种复杂数据,其抽样、生成、结构和关联程度都会影响到数据的复杂性和描述性,有些情形甚至连基本的可视化描述都成为难点。在利用函数型数据的主成分得分、图基的数据深度和密度概念的基础上,引入函数型数据的打包图和箱线图,并针对函数型数据的图形分析提出了函数型数据异常值检测的三种方法。与已有的检测方法相比较

2、,所提三种方法更易于识别函数型数据的异常值。关键词:函数型数据;图形工具;异常值检测中图分类号:F224.0:O243文献标志码:A文章编号:1oO7—3116(2014)O6一o018一O7近年来,函数型数据分析的应用领域正在不断一、引言扩大,从自然科学到社会科学、从静态数据到动态数从数据生成的过程看,统计数据大致可以划分据、从普查数据到抽样数据,人们都在寻找利用函数为两类,即简单数据和复杂数据。简单数据内涵小型数据方法进行分析和检验的基本路径。对于复杂而外延大,如电子监控视频、手机通话记录、网络日的函数型数据而言,发现一种简单的描述工具就显志、图片、地理位置信息

3、等,这些数据的各种集合现得尤为重要。通常被称之为大数据,大数据的基本单元从本质上可视化方法有助于发现一些用数学模型和描述看就是一类简单数据,是非结构化和半结构化的数性统计方法无法得到的特征,然而到目前为止,该方据;复杂数据一般来源于人们对统计数据产生过程法在函数型数据的相关文献中并未得到广泛的关注的干预和设计,如抽样技术、工业控制过程、人口普和认同。大多数文献仅关注于函数型数据的建模、查等有目的的数据搜集过程而产生的数据,这都可聚类和预测,而对可视化方法及异常值的检验不够看做是复杂数据,复杂数据内涵丰富而外延则相对重视。在查阅到的大量文献中,讨论函数型复杂数简单。据

4、可视化方法的文献为数不多,但其中不乏精品。函数型数据本质上就是复杂数据,因为通过现一种情况是加拿大麦吉尔大学教授Ramsay等人的有的统计手段所获取的信息往往是一个不连续的、相平面图和澳大利亚莫纳什大学教授Hyndman等片段的、离散的有界有序有经济意义的数列,这类数人的地毯图(意为类似地毯构图中依据某种图案进据的结构复杂,内涵丰富,而且数据的生成过程不是行的有边界的渲染效果),这两类图从函数型数据的简单的自然产生过程,大部分情况下是由人为主动一阶和二阶导数中得出了显著的重要分布特干预所形成的。随机抽样、专项调查、官方统计制度征[]。[。;另一种情况是美国普渡大学教

5、授等手段都会增加数据的复杂度,因而函数型数据从Zhang等人的异常值分解图,旨在展示当样本量及抽样、生成、结构和建模都体现出了复杂性,是一类维数增加情况下潜在组成部分的变化[3]。这一类统具有重要意义和价值的统计数据。计图形方法的好处就是能检测函数型数据中的异常收稿日期:2014—02一O9;修复日期:2014-04—18基金项目:国家社会科学基金重点资助项目《中国社会核算矩阵研究》(1OATJO01);国家统计局全国统计科学重点研究项目《统计数据的函数化及函数型数据分析的工具创新)(2009LZ026)作者简介:米子川,男,山西祁县人,统计学博士,副教授,硕士生导

6、师和MPA导师,研究方向:应用统计学。18米子川:基于图形分析方法的函数型数据异常值检验实证研究值,通常这些异常值在最初的简单数据描述图中并不明显,偏离的曲线要么可能位于大量数据范围之外(称为“位置异常”),要么可能在数据范围之内,但相对于其他曲线有不同的形态(称这些点为“分布异常”),而这些偏离的曲线更多情形是上述两个特征的混合。异常值的存在对函数型数据的建模和预测有严重的影响,如果对异常值不进行处理,统计分析12131415161718l91l0111121BI141l5lInl7lI8I191201211212312411经常会导致不精确的结论。尽管此问题如此

7、重(a)l991-2013年上证指数成交金额彩虹图要,但对于函数型数据异常值的检测也仅有两种方法。一种是Hyndman等人的基于稳健型主成分分析的方法[‘;另一种是Febrero等人的基于连续似然比检验和平滑自助法所进行的函数型异常值检测[5]。二、函数型数据图形描述方法综述数据平滑方法是函数型数据图形化描述的基本工具。对于一组面板数据,当使用数据平滑方法在(b)1991-2013年上证指数收盘价彩虹图同一个坐标系内绘出同一个指标不同时间点的拟合图1上证指数收盘价和成交金额彩虹图曲线,而且这些曲线依照时间顺序以不同的颜色排图1是以上证指数收盘价和成交金额等自然指

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。