浅析大数据与统计新思维

浅析大数据与统计新思维

ID:31649416

大小:58.60 KB

页数:5页

时间:2019-01-16

浅析大数据与统计新思维_第1页
浅析大数据与统计新思维_第2页
浅析大数据与统计新思维_第3页
浅析大数据与统计新思维_第4页
浅析大数据与统计新思维_第5页
资源描述:

《浅析大数据与统计新思维》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅析大数据与统计新思维中国联合网络通信有限公司哈尔滨软件研究院黑龙江150040摘要:随着信息全球化的不断深入,国际社会成为了一个整体,信息技术的发展带动了整个国际社会的进步。现阶段网络数据的信息量越来越庞大,大数据时代的到来对传统信息模式起到了相当大的冲击作用,其他领域必定受到大数据时代的影响产牛一些相应的变化。木文就以大数据时代下统计新思维对于其他领域的影响和发展进行了简单的分析,以促进传统统计学理论能够适应大数据时代的变化。关键词:大数据统计;统计思维1、前言大数据时代是一个拥有庞大数据类型和规模数量的时代,同时它还有数据更新速度快等特点,这些特点对其他行业和国家经济的发展都

2、有着重要影响。为了使国家能够顺应大数据时代的发展,统计思维的创新十分有必要。木文主要研究了大数据时代统计的发展,希望其他工作者可以通过木文的研究开阔视野,多个角度面对问题解决问题。2、大数据的处理、抽样与分析2.1数据的预处理大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据

3、进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题(panels)的数据可以相互联合,实现单一专题数据不能完成的目标。2.2大数据环境的抽样大数据的抽样方法有待研究,“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据己获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的“热门”数据,也是感兴趣的数据进入样本。建立数据

4、流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。2.3大数据的分析与整合针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法(datastreamcomputing)。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计

5、结果。2.4网络图模型网络图模型用图的结构描述高维变量之间的相互关系,包括无向图概率模型、贝叶斯网络、因果网络等。网络图模型是处理和分析高维大数据和多源数据库的有效工具,目前己经有丰富的图模型的软件系统,无向图模型利用有或无一条无方向边来描述变量之间的关联关系和条件独立性,可以将高维变量的统计推断问题分解为低维变量的统计推断问题。在一个由众多变量作为结点的大网络中,当收集到一部分变量的信息后,不用计算高维联合概率,而是采用网络传播信息流的方法有效地计算目标变量的后验概率。变量间的因果关系,利用数据学习网络结构,发现产生数据的机制和因果关系网络。3、大数据与统讣学分析方法的区别3.1

6、基础数据不同在大数据时代,我们可以获得和分析更多的数据,有吋候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。①在数据来源方面,在人数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要

7、对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。②在数据类型与收集方面,在既往模式下,数据的收集是耗时II耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。3.2分析范式不同。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。