大数据对统计学来说是冲击和机遇

大数据对统计学来说是冲击和机遇

ID:38624645

大小:43.50 KB

页数:4页

时间:2019-06-16

大数据对统计学来说是冲击和机遇_第1页
大数据对统计学来说是冲击和机遇_第2页
大数据对统计学来说是冲击和机遇_第3页
大数据对统计学来说是冲击和机遇_第4页
资源描述:

《大数据对统计学来说是冲击和机遇》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据对统计学来说是冲击和机遇大数据时代需要重视统计学我们现在要开始重视大数据,更要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。大数据的定义大数据(巨量数据集合(IT行业术语))(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Vol

2、ume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。统计学的定义统计学是对研究对象的数据资料进行搜集、整理、分析和研究,以显示其总体的特征和规律性的学科。统计学的研究对象是客观事物的数量特征和数据资料。统计学是以搜集、整理、分析和研究等统计技术为手段,对所研究对象的总体数量关系和数据资料去伪存真、去粗取精,从而达到显示、描述和推断被研究对象的特征、趋势和规律性的目的。统计学,亦可简称为统计。统计方法已被应用到自然科学和社会科学的众多领域,统计学也发展成为由若干分支学科组成的学科体系。从统计方法的构成来看,统

3、计学可以分为描述统计学和推断统计学;从统计方法研究和统计方法的应用角度来看,统计学可以分为理论统计学和应用统计学。大数据对统计学的冲击(一)对描述统计学的冲击描述统计学(DescriptiveStatistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。1.对数据搜集基本方法的冲击搜集数据的途径众多,可通过普查、统计报表、抽样调查、典型调查、重点调查等

4、获得资料。搜集数据的过程中除了要注意资料的真实性和可靠性外。在数据的搜集、整理、分析等各阶段都存在误差,统计数据的误差主要有登记性误差和代表性误差两类。登记性误差是调查过程中由于调查或被调查者的人为因素所造成误差。调查者所造成的登记性差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者造成的登记性误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据,这种误差在统计调查中应予以重视。而在大数据时代下,数据的存储就像摆在商店里的商品一样,可以直接筛选出对自己有用的数据,数据来源于信息技术记录下的原始数据,这

5、些数据的搜集仅仅依赖于测量方法(如GPS定位测量、图书图管理系统等),而不需要调查对象的配合。一旦技术成熟,大量的数据传输中,想要篡改数据是极其困难的,所以登记性的误差大大降低。代表性误差主要是指用样本数据进行统计推断时产生的随机误差。代表性误差产生的原因主要有:抽取样本时没有遵循随机原则,样本结构与总体结构存在差异,样本容量不足,等等。这类误差在传统的搜集方法中通常是无法消除的。但在大数据背景下,一方面,数据搜集下的统计调查基本可以认为是普查,在普查情况下,代表性误差可以基本消除。另一方面,统计数据反映的是总体趋势,往往无法对应到具体的个

6、体情况,难以获得更加有价值的信息。但随着数据采集获取技术的进步,人们可掌握的数据渐渐由全局性的宏观数据,再到中观层面的数据,最后又回到微观层面,即关注个体的行为模式。这不是倒退,而是技术进步所带来数据价值的变化。总的来说,大数据下搜集的方法更为多变,搜集的速度更为精确,数据的质量更高。1.对搜集数据类型的冲击传统统计搜集的资料可以分为两类不同性质的资料:一是连续数据,也叫计量资料,指通过实际测量得到的数据,如对儿童身高、体重测量所得的数值,或在考试测验中所得的分数等;二是间断数据,也叫计数资料,指通过对事物类别、等级等属性点计所得的数据,如

7、儿童男女的人数,学习成绩在优、良、中、及格、不及格各个等级中的人数等。传统统计学依赖于结构化数据,如数字等信息,但非结构数据(包括文本、图像、图像、音频和视频等信息)和半结构化数据(如HRML文档)同样蕴含着海量信息和统计规律。统计学是研究事物本身的数量关系,但并非所有的研究对象都有量化指标,也不是所有的量化指标能够很好地说明研究对象。目前大数据采集到的数据85%以是非结构化和半结构化数据,传统的关系数据库无法胜任这些非结构化和半结构化数据的处理,但大数据可通过建立非结构数据库对这些海量数据进行标准化处理,将非结构化数据转化为结构化数据,从

8、而发挥这些多元化数据的潜在作用[10]。若传统统计学能突破结构化数据的限制,降低样本选取标准,建立非结构数据库,使统计学的数据基础呈多元化,则统计学的应用范围会大幅扩大。2.对数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。