数值变量资料的统计推断

数值变量资料的统计推断

ID:5617799

大小:2.76 MB

页数:94页

时间:2017-11-16

数值变量资料的统计推断_第1页
数值变量资料的统计推断_第2页
数值变量资料的统计推断_第3页
数值变量资料的统计推断_第4页
数值变量资料的统计推断_第5页
资源描述:

《数值变量资料的统计推断》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数值变量资料的统计推断第三章教学要求掌握标准误计算公式及意义熟悉t分布的特征掌握总体均数的估计方法掌握均数的假设检验方法统计推断的过程总体样本抽样总体均值、比例、方差统计推断样本均数、率、标准差统计量参数假如我们想了解我国正常成年男子的红细胞计数?普查:对我国全部正常成年男子进行抽血,测定红细胞计数。抽样:随机抽样测定我国300名正常成年男子红细胞计数,通过分析该部分男子的红细胞计数推断全国情况。思考:变量?总体?样本?现实生活中的抽样现象炒菜时尝尝咸淡评价河水污染情况就医时做血常规检验假设正常成年男子红细胞N(5.00,0.502)的正态

2、分布总体,从该总体中重复进行1000次抽样,样本量分别为5,10,30。计算其均数和标准差。1000份样本抽样计算结果总体均数总体标准差s均数的均数均数的标准差n=55.000.504.9870.23000.2236n=105.000.505.0110.15860.1581n=305.000.505.0000.09200.0913各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的变异较之原变量的变异大大缩小;4.样本均数分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,服从正态分布。第一节均数的抽样误差由于抽样造成的样本

3、均数与总体均数之间、样本均数与样本均数之间的差异。这种差异可用样本均数……的变异,即样本均数的标准差来表示,又称标准误。标准误反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。公式:当S一定时,n越大,即样本量越大,标准误越小;故:我们可以通过增加样本量来减小抽样误差。例2003年某地20岁应征男青年中随机抽取85人,平均身高为171.2cm,标准差为5.3cm,计算当地20岁应征男青年身高的标准误。来自同一正态总体的样本:来自同一非正态总体的样本:小样本非正态分布大样本(n≥30)服从正态分布中心极限定理:以数值变量为例,若从正态

4、总体中以固定n反复多次抽样,所得样本均数的分布是正态分布;即使从偏态总体中抽样,只要n足够大,样本均数的分布也近似正态分布标准差VS标准误第二节t分布以0为中心,左右对称,类似于标准正态分布与标准正态分布相比,曲线峰值较矮,两尾部翘得高;自由度越小,t值越分散,曲线峰值越小。随着自由度逐渐增大,t分布逐渐逼近标准正态分布;当自由度趋于无穷,t分布即为标准正态分布。P101t分布曲线下面积规律:1.同一下,P值越小,t值越大2.同一P值下,越大,t值越小0第三节总体均数的估计区间估计置信上限可信/置信区间(区间估计)置信下限样本统计量(点

5、估计)1-a称为置信水平或置信度,常用的有90%、95%、99%;相应的区间可表示为90%CI、95%CI、99%CI。1-aa/2a/295%CI的含义:从总体中作随机抽样,例如作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计不正确)。实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95%的可能是正确的,而5%的可能发生错误。设某人群的身高值X~N(155.4,5.32),现从该总体中随机抽出一个n=10的

6、样本,算得均数为158.36cm,S=3.83cm,求得m的95%可信区间为(155.62,161.10),发现该区间未包含总体均数m=155.4cm。若随机从该总体抽取n=10的样本200个,每次都求95%可信区间,问大约有多少个可信区间不包括总体均数m=155.4cm在内?1.s已知,或s未知但n足够大:u分布法1-aa/2a/21.1s已知1.2s未知但n足够大样本量足够大,t分布趋向于u分布s未知:2003年某地20岁应征男青年中随机抽取85人,平均身高为171.2cm,标准差为5.3cm,估计2003年当地20岁应征男青年身高总体

7、均数的95%的可信区间。解:,求总体均数的95%可信区间。影响区间宽度的因素数据的离散程度,用S或来测度样本容量,置信水平(1-),影响或的大小可信区间95%CI99%CI公式范围窄宽估计错误概率大(0.05)小(0.01)精确度准确度1-a在准确度一定的情况下,如何提高精确度?可信区间参考值范围含义当=0.05时,CI以95%的可能性包含总体均数。“正常人”的解剖、生理、生化某项指标个体值的波动范围。计算公式s未知:正态分布:s已知或s未知但为大样本:偏态分布:PX~P100X用途总体均数的区间估计绝大多数(如95%)观察对象某项

8、指标的分布范围某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业男性工人的血红蛋白是否不同于正常成年男性平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。