章上峰大数据时代统计面临的挑战(PDF102页).pdf

章上峰大数据时代统计面临的挑战(PDF102页).pdf

ID:52760279

大小:4.00 MB

页数:102页

时间:2020-03-30

章上峰大数据时代统计面临的挑战(PDF102页).pdf_第1页
章上峰大数据时代统计面临的挑战(PDF102页).pdf_第2页
章上峰大数据时代统计面临的挑战(PDF102页).pdf_第3页
章上峰大数据时代统计面临的挑战(PDF102页).pdf_第4页
章上峰大数据时代统计面临的挑战(PDF102页).pdf_第5页
资源描述:

《章上峰大数据时代统计面临的挑战(PDF102页).pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、浙江大学-凉山州统计系统干部业务能力提升班大数据时代统计面临的挑战——统计方法在政府经济管理中的应用章上峰统计学博士、经济学博士后个人简介浙江工商大学统计与数学学院副教授、研究生导师浙江工商大学经济统计与数量经济研究所副所长国家统计局优秀成果奖和浙江省科技进步奖获得者国家自然科学基金和国家社会科学基金首席专家在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。——C.R.劳先生《统计与真理》2017年1月20日,71周岁的美国新总统特朗普宣誓就职。成为美国历史上最年长的总统。共和党候选人:特朗普民主党候选人

2、:希拉里2017年5月14日,39周岁的法国新总统马克龙于宣誓就职。成为法国历史上最年轻的总统。1936年《文学文摘》对罗斯福总统竞选的大数据预测为什么会失误?•1936年,兰登(共和党候选人)与罗斯福(民主党候选人)竞选总统,当时很有声望的杂志社《文学文摘》承担了选情预测的任务。•《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中成功预测总统宝座的归属。再次雄赳赳气昂昂地照办老方法——民意点钞,范围拓展得更广。数据集合越大,预测结果越准确。计划寄出1000万份调查问卷,覆盖当时四分之一的选民。•最终在两个多月内收到了惊人的2

3、40万份回执,在统计完成以后,《文学文摘》宣布,兰登将会以55比41的优势击败罗斯福赢得大选,另外4%的选民则会零散地投给第三候选人。真实的选举结果与《文学文摘》的预测大相径庭,罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是,新民意调查的开创者乔治.盖洛普仅仅通过一场规模小得多的问卷——一个3000人的问卷调查,得出了准确得多的预测结果:罗斯福稳操胜券。罗斯福总统盖洛普的3000人“小”抽样,居然挑翻了《文学文摘》240万的“大”调查,实在让专家学者和社会大众跌破眼镜!原因分析《文学文摘》的失败在于取样存在严重偏差,调查对象主要锁定为它自

4、己的用户,虽然问卷数量不少,但订户多集中在上阶层(共和党),中下阶层(民主党)预定较少,样本一开始就是有偏差的,数据质量也受到影响,推断结果不准确也就可以解释了。中国四大名著及作者西游记(吴承恩)红楼梦(曹雪芹)水浒传(施耐庵)三国演义(罗贯中)红楼梦的作者有几人?红楼梦的作者有几人?统计学家揭开玄机众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生将120回看成是120个样本

5、,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧等)出现的次数,作为《红楼梦》各个回目的数字标志。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入

6、《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。莎士比亚的新诗:一曲统计学的赞歌1985年11月14日,研究莎士比亚的学者泰勒从1775年以来就保存在Bodelian图书馆的收藏中发现了写在纸片上的九节新诗。新诗只有429个字,没有记载谁是诗的作者。这首诗会是莎士比亚的作品吗?两个统计学者Thisted和Efron(1987)利用

7、统计方法研究了这个问题,得到的结论是这首诗用词的风格与莎士比亚的风格非常一致。这个研究纯粹基于统计学的基础,其过程可描述如下:已知莎士比亚所有著作的用词总数为884647个,其中31534个是不同的,这些词出现的频数如下表所示:表1不同单词所使用的频数分布单词使用的频数不同的单词数114376243433229241463......>100846总数31534新发现的诗上,其含有429个单词中有258个是不同的,新诗的观测值和预测值(基于莎士比亚的风格)分布由表2(最后两栏)给出,从表2可以看到,(在所期望的差的范围内)两个分布非常一致,这表示了新发现的诗

8、的作者可能是莎士比亚。表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。