大数据的统计学08.pdf

大数据的统计学08.pdf

ID:52359103

大小:934.08 KB

页数:29页

时间:2020-03-26

大数据的统计学08.pdf_第1页
大数据的统计学08.pdf_第2页
大数据的统计学08.pdf_第3页
大数据的统计学08.pdf_第4页
大数据的统计学08.pdf_第5页
资源描述:

《大数据的统计学08.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据的统计学基础——第8周DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http://edu.dataguru.cnDATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!DATAGURU专业数据分析社区大数据的统计学基

2、础讲师何翠仪统计推断统计学:描述统计学与推断统计学根据样本数据推断总体数据的情况样本均值总体均值样本方差总体方差样本比例总体比例DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪总体比例估计DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪样本比例估计总体比例要求:1.样本要为简单随机样本2.二项分布的条件成立3.至少有5个成功,5个失败,即np>=5,nq>=5样本比例?是总体比例p的最好点估计(Pointestimation)——无偏而且最有效DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪例子

3、美国的“全国艾滋行为调查”访问了2673位成人异性恋者的随机样本。其中,有170人承认,在前一年曾有超过一个性伴侣,占样本的6.36%。(这个结果可能会存在偏差,因为有人会不愿意把自己的性行为如实告诉别人,但我们在这里假设所有人都说了实话)根据以上的数据,我们可以推断,美国所有成年异性恋者中有不止一个性伴侣的比例大约是6.36%但是如果我们再做一次调查,得到的样本比例或许会不一样,假设是6.72%。那么我们应该使用哪个数据区估计总体比例呢?DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪点估计——置信区间刚才的例子中,如果实际上成年异

4、性恋中,有6%的人不止一个性伴侣。则真实的总体比例p=0.06。“全国艾滋行为调查”的大小为n=2673的样本,如果重复抽取多次的话,得到的样本比例?的分布会很接近于正态分布(中心极限定理)分布的均值:0.06?(1−?)0.06∗0.94分布的标准差:=≈0.0046?2673所有的样本比例?中,约有95%会落在2个标准差之内,即?(1−?)?(1−?)(p-2*,p+2*)=(0.0508,0.0692)???(1−?)?(1−?)有95%的?跟p的差距的绝对值在2*之内。换句话说,95%的(?-2*,???(1−?)?+2*)区间会包含正

5、真的总体比例p?DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪点估计——置信区间中心极限定理:样本比例?近似正态分布N(p,p(1-p)/n)样本比例落在尾部的概率非常小样本比例落在阴影尾部的总概率为α样本比例落在中间部分的概率为1-αDATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪置信区间——名称解析置信区间(confidenceinterval):用来估计总体参数真实值的一个区间,通常形式:估计值±误差界限误差界限(marginoferror):估计值的最大误差,使用E表示置信度(confidencelevel

6、):1-α临界值(criticalvalues):??/2置信区间边界(confidenceintervallimits):置信上限,置信下限DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪置信区间?1−??−??~??,,所以~?0,1??(1−?)??−??1−??1−??

7、统计学基础讲师何翠仪总体比例的区间估计要求:1.样本要为简单随机样本2.二项分布的条件成立3.至少有5个成功,5个失败,即np>=5,nq>=5之前的例子中,样本比例?=0.0636。那么所有成年异性恋者中,有不止一个性伴侣的人所占的比例p的95%置信区间为:?1−?0.0636∗0.9364?±??∗=0.0636±1.96=0.0636±0.0092=(0.0544,0.0728)?26732有95%的把握(0.0544,0.0728)会包含真正的总体比例DATAGURU专业数据分析社区大数据的统计学基础讲师何翠仪总体比例的区间估计更

8、精确的计算方法:?−?~?0,1?(1−?)??−?22221−?=?−??

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。