计量资料的统计描述课件.ppt

计量资料的统计描述课件.ppt

ID:57011224

大小:723.50 KB

页数:91页

时间:2020-07-26

上传者:U-5097
计量资料的统计描述课件.ppt_第1页
计量资料的统计描述课件.ppt_第2页
计量资料的统计描述课件.ppt_第3页
计量资料的统计描述课件.ppt_第4页
计量资料的统计描述课件.ppt_第5页
资源描述:

《计量资料的统计描述课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第二章计量资料的统计描述9/8/2021医学统计学---供研究生用 数值变量资料的统计描述数值变量资料的频数分布集中趋势的描述离散趋势的描述正态分布医学参考值范围的制定 第一节频数分布一、频数分布表简称频数表(frequencytable)例2-1从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。 2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.803.414.123.955.084.533.923.585.353.843.603.514.063.073.554.233.574.833.523.844.503.964.503.274.523.194.593.753.984.134.263.633.875.713.304.734.175.133.784.573.803.933.783.994.484.284.065.265.253.985.033.513.863.023.704.333.293.254.154.364.953.003.26试编制频数分布表。 1、频数表的编制找全距(range)定组距(classinterval): 一般分为10~15组,如组距约为全距/10写组段:每个组段的起点称为下限,lowerlimit;每个组段的终点称为上限,upperlimit;下限≤X<上限 频数表的编制--续1.计算极差:极大值-极小值5.71-2.35=3.362.组数:10组距3.36/10=0.336取0.33.分组段:最小组段2.3~最大组段5.6~5.94.列表划记:101名正常成年女子的血清总胆固醇频数分布总胆固醇组段频数2.30~12.60~32.90~63.20~83.50~173.80~204.10~174.40~124.70~95.00~55.30~5.60~5.9021 二、频数分布图(graphoffrequencydistribution)以各组段总胆固醇含量为横轴,频数为纵轴。 SPSS中的操作:1.建立数据库2.先使用Recode命令,对变量进行重新划计分组,注意新变量取组中值。3.再用Frequencies命令 1、Recode—>IntoDifferentVariables 2、将“胆固醇”选入NumericVariable栏,在OutputVariable栏输入新变量“Y”,单击Change按钮, 单击OldandNewValues按钮。 3、在OldandNewvalues对话框,按对变量值重新划分要求输入相应数据后,单击Add按钮。重复进行该操作。新变量可直接取组中值。 语法命令:RECODE胆固醇(2.3thru2.599=2.45)(2.6thru2.899=2.75)(2.9thru3.199=3.05)(3.2thru3.499=3.35)(3.5thru3.799=3.65)(3.8thru4.099=3.95)(4.1thru4.399=4.25)(4.4thru4.699=4.55)(4.7thru4.999=4.85)(5.0thru5.299=5.15)(5.3thru5.599=5.45)(5.6thru5.89=5.75)INTOY.EXECUTE. 频数分布的类型对称分布:集中位置居中,左右两边对称偏态分布:正偏态分布(右偏态)峰左尾右负偏态分布(左偏态)正偏态分布对称分布负偏态分布 三、频数表和频数分布图的用途揭示变量的分布特征和分布类型;便于进一步计算指标和统计分析处理;便于发现某些特大或特小的可疑值。 频数分布的两个特征集中趋势,centraltendency指变量值的中心数值或中心位置所在。离散趋势,tendencyofdispersion指变量值围绕中心数值或中心位置的分布情况。 第二节集中趋势的描述平均数(average):用于观察一组同质变量值的平均水平/集中位置。亦称中心位置指标。它不但给人一个简明概括的印象,而且便于事物间的分析比较。常用的平均数算术均数(arithmeticmean/mean)几何均数(geometricmean)中位数(median) 一、算术均数,简称均数(arithmeticmean/mean)均数是算术均数的简称。总体均数用希腊字母μ(缪,mu)表示样本均数(Xbar)表示。均数反映一组观察值在数量上的平均水平。 均数的应用主要用于对称性或近似对称性分布的资料;尤其是在正态分布或近似正态分布上的应用。 计算方法1.直接法Σ:希腊字母(西格马,sigma),求和符号例9.2有8名正常人的空腹血糖值(mmol/L):6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9 2.频数表法(加权法)组段频数f组中值XfXfX22.30~12.452.456.002.60~32.758.2522.692.90~63.0518.3055.823.20~83.3526.8089.783.50~173.6562.05226.483.80~203.9579.00312.054.10~174.2572.25307.064.40~124.5554.60248.434.70~94.8543.65211.705.00~55.1525.75132.615.30~25.4510.9059.415.60~5.9015.755.7533.06合计101——409.751705.09 频数表计算均数:Xj为各组的组中值。组中值等于该组的上限加下限之和除以2。fj为各组的频数。101名正常成年女子的血清总胆固醇均值为:=409.75/101=4.06(mmol/L) 补充:均数的两个重要特征(1)离均差之和为零 均数的两个重要特征(2)离均差平方和为最小 (二)几何均数Geometricmean,G反映一组呈倍数关系的观察值的平均水平适用:数据呈正偏态分布,经对数转换后呈正态分布。多用于观察值之间呈倍数关系,如抗体滴度计算方法直接法加权法 1.直接法 例:有8份血清的抗体效价为为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640。求平均效价。用直接法计算G将各效价的倒数代入公式,得该8份血清的平均抗体效价为1:56.57,近似为1:57注意:变量值不能有0 2.频数表法式中f为频数。 用频数表法计算G例30名麻疹易感儿童接种麻疹疫苗一个月后,血凝抑制抗体滴度如下表所示,试求其平均抗体滴度。 30名麻疹易感儿童血凝抑制抗体滴度抗体滴度人数f滴度倒数XlgXflgX1:8280.90311.80621:166161.20417.22461:325321.50517.52551:6410641.806118.06201:12841282.10728.42881:25622562.40824.81641:51215122.70932.7093合计30∑flgX=50.58 30名麻疹易感儿童接种麻疹疫苗一个月后血凝抑制抗体滴度为1:48.5同一组资料求得的几何均数小于均数。 SPSS求几何均数时有三种方法1.是先计算对数的均数,然后求其反对数,得出几何均数;2.直接用ReportCaseSummaries命令;3.用CompareMeans命令,但要个增加分组变量。 使用频数表资料时SPSS操作中应注意的事项频数表资料要用weight命令;进行数据输入时要使用组中值;并且在Frequencies命令中要选择Valuesaregroupmidpoints:根据分组资料计算百分位数。 (三)中位数Median,M将一组观察值从小到大按顺序排列,位次居中的观察值,即为中位数。一半的值比M小,一半的值比M大。例:1,3,5,7,18(奇数)1,3,5,7,18,20(偶数)计算n为奇数时n为偶数时 M计算方法例:9人某病潜伏期(天)分别为3,4,4,5,6,7,7,19,19,求中位数。例:6名新生儿身长(cm)分别为50.1,52.0,53.0,55.0,55.0,56.0,求中位数。 中位数的应用中位数可用于任何分布的定量资料;资料的分布呈明显偏态,特别是负偏态;分布的一端或两端无确定的数值;(如:>50,或<10)资料的分布不清。注意:在完全对称的单峰曲线分布中,同一组资料的均数与中位数相同,Mean=Median 中位数的优缺点优点:不受个别特大或特小的观察值影响;其它平均数不宜使用时,中位数就显示出它的优越性。缺点:掉失了大量信息,其敏感性不够。 百分位数(Percentile,Px)百分位数位置指标;界值;分布数列的百等份分割值。有x%的比Px小,有(100-x)%的比Px大。中位数是一个特定的百分位数P50。 百分位数的计算fX为PX所在组段的频数,i为该组段的组距,L为该组段的下限,fL为小于L各组段的累计频数。 某传染性疾病的潜伏期(天)如下表,求其 中位数和百分位数P95潜伏期(天)人数f累计频数∑f累计频率%4~262624.048~487468.5212~259991.6716~610597.2220~3108100.00 百分位数的应用描述一组观察值在某百分位置上的水平。用于确定医学正常值范围。用一组百分位数描述一组观察值的变异度,如四分位数。 应用平均数时的注意事项同质的变量值才能求平均数;根据资料的分布特点,选用适应的平均数指标。 第三节离散趋势指标例有3组同龄男孩体重(kg)如下,其体重均数都是30(kg),试分析离散程度。甲组2628303234乙组2427303336丙组2629303134 离散程度(或变异程度)指数据参差不齐的程度,反映资料的离散趋势。将反映平均水平与离散程度的指标结合起来使用,可全面地描述数据的分布规律。 (一)全距(或极差,Range)全距=最大值–最小值优点:简单明了缺点:不能反映组内其他数据的变异,样本含量相差较大时,不宜用极差比较分布的离散程度。 (二)四分位数间距inter-quartilerange百分位数:指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分为两部分,在不包括PX的全部数据中有X%数据小于PX,有1-X%的数据大于PX%。中位数是一个特定的百分位数P50。四分位数:下四分位数P25;上四分位数P75P0——P25——P50——P75——P100四分位数间距:P75-P25或QU-QL比极差稳定,但仍未考虑每个数据的大小。常和中位数结合使用描述数据的分布规律。 (三)方差(variance)和标准差(standarddeviation)离均差平方和:考虑每个观察值,但受N的影响。对离均差平方和求均数,得总体方差2,开根号得标准差。 一般未知,常常用来估计之,数理统计证明,如用样本的变量个数n来代替N,计算出的样本方差比实际2低,需要用n-1校正,得样本方差S2。开根号得样本标准差s。 自由度,degreeoffreedom方差计算公式中的n-1被称为自由度,它描述了当选定时,n个X中能自由变动的X(变量值)的个数。例:某样本含有5个数据,要求∑X=15。则在自由确定了四个数据后,第5个数据只能是15-(x1+x2+x3+x4)。即有4个数据可以自由变动,其自由度=4。推而广之,任何统计量的自由度=n-k,k为限制条件的个数。自由度:是随机变量可以“自由”取值的个数。 总体标准差样本标准差标准差standarddeviation 标准差的计算甲组2628303234标准差3.16乙组24273033364.74丙组26293031342.92甲组:∑X=26+28+30+32+34=150∑X2=262+282+302+322+342=4540 用频数表法计算标准差 组段频数f组中值XfXfX22.30~12.452.456.002.60~32.758.2522.692.90~63.0518.3055.823.20~83.3526.8089.783.50~173.6562.05226.483.80~203.9579.00312.054.10~174.2572.25307.064.40~124.5554.60248.434.70~94.8543.65211.705.00~55.1525.75132.615.30~25.4510.9059.415.60~5.9015.755.7533.06合计101——409.751705.09 标准差的用途:反映一组观察值的离散程度;计算变异系数;计算标准误;估计参考值范围。 标准差与算术均数之比,反映了相对离散程度常用于比较度量衡单位不同的多组资料的变异度均数相差悬殊的多组资料的变异度(四)变异系数CVcoefficientofvariation 例:度量衡单位不同的变异度某地20岁男子110名身高=172.73cm,s=4.09cm;体重=55.04kg,s=4.10kg,试比较两组资料的变异程度,即身高、体重的变异程度哪个大? 例:均数相差悬殊的变异度某地成年人舒张压和收缩压的变异程度均数标准差变异系数(%)舒张压77.510.713.8收缩压122.917.113.9 SPSS命令及操作AnalyzeDescriptiveStatisticsFrequenciesDescriptives Frequencies、Descriptives、Means和CaseSummaries命令这四个命令都可以计算均数、标准差、标准误等主要指标。如果只计算上述3个主要指标,选用Descriptives命令较为方便;如果需计算中位数、百分位数和绘制频数分布图,应选用Frequencies命令;如果需分组计算均数、中位数、几何均数、标准差、标准误等指标,应选用Means命令(必须有分组变量)。如果计算几何均数,选用CaseSummaries命令较为方便。 第四节正态分布及其应用正态分布(normaldistribution)的概念和特征正态分布的两个参数正态曲线下面积分布规律标准正态分布标准正态分布与标准化变换标准正态分布表正态分布的应用估计频数分布制定参考值范围质量控制统计方法的基础 一、正态分布(一)正态分布的图形例:某地7岁男童身高的 频数分布9/8/202160 正态分布图形特点正态分布频数分布是中间(靠近均数)频数多,两边频数少,且左右对称。正态曲线呈钟型:两头低中间高,左右对称若指标X的频数分布图接近正态分布曲线,则初步判断该指标服从正态分布。 正态分布的概率密度函数:为总体均数,为标准差,记为:X~N(m,s) 记为:X~N(m,s)如某年某地7岁男孩的身高X服从均数为121(cm)、标准差为5(cm)的正态分布,可记为X~N(122,5) (二)正态分布的两个参数m描述了正态分布的集中趋势位置。s描述正态分布的离散程度。s越小,曲线越瘦高,分布越集中;反之,... 二、正态曲线下面积的分布规律F(X)为正态变量X的分布函数,即对概率密度函数求积分 正态曲线下面积的分布规律---续(-1,+1)的面积占总面积的68.27%(-1.96,+1.96)的面积占总面积的95.00%(-2.58,+2.58)的面积占总面积的99.00% 三、标准正态分布标准正态分布与标准化变换标准正态分布表 标准化变换:u变换这样可将所有不同均数和标准差的资料都转换为均数为0,标准差为1的分布,即标准正态分布。 标准正态分布的累计函数标准正态分布图形-3-2-10123 标准正态分布表(P707附表1)把标准正态分布曲线下的面积编制成工具表列出标准正态曲线下从-∞到u范围内的面积F(u)值。而且F(u)=F(-u)。-∞到u=-0.50范围内的面积:F(-0.5)=0.3085-∞到u=0.50范围内的面积为多少呢F(0.5)=1-F(-0.5)=1-0.3085=0.6915 标准正态分布面积分布规律-∞到u=-2.58范围内的面积:0.0049-∞到u=-1.96范围内的面积:0.0250-∞到u=0.00范围内的面积:0.5000(-1,1)的面积占总面积的68.27%(-1.96,1.96)的面积占总面积的95.00%(-2.58,2.58)的面积占总面积的99.00%-3-2-10123 正态分布的特征正态曲线呈钟型,在横轴的上方,均数位置最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数和标准差;标准正态分布的均数为0,标准差为1;正态曲线在±1各有一拐点;正态分布的面积分布有一定的规律性。 正态分布的应用估计频数分布制定参考值范围质量控制统计方法的基础 估计频数分布若某项研究得出某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。U=(2500-3200)/350=-2查标准正态表(p707附表1)得:F(-2)=0.0228估计该地当年低体重儿所占的比例为2.28%例出生体重低于2500克为低体重儿。 第五节医学参考值范围的制定referenceranges亦称正常值范围绝大多数正常人某指标测定值所在的范围绝大多数:90%、95%、99%等等。正常人是指排除了影响所研究指标的疾病和有关因素的同质人群。应遵循一定步骤确定参考值范围。计算方法有正态分布法和百分位数法。 一、确定参考值范围基本步骤从正常人总体中抽取足够含量的样本;n>100控制测量误差下进行准确而统一的测定;判定是否需要分组;有无年龄、性别差异等?确定取单侧还是双侧范围值:红细胞?肺通气量?尿铅?选定适当的百分界限;对资料进行正态性检验;计算参考值范围。 正常人与病人的分布有重叠减少假阳性可选用95%或99%:鉴定诊断。减少假阴性可选用80%或90%:筛选可疑者。 正常人和病人的分布重叠较多需要确定可疑范围。如舒张压=<90mmHg:正常>90mmHg且=<95mmHg:临界高血压>95mmHg:高血压 参考值范围的确定方法:正态近似法,百分位数法95%参考值(正常值)范围正态近似法百分位数法双侧±1.96sP2.5~P97.5单侧下限-1.64sP5单侧上限+1.64sP95 例1:某地农村1999年130名14岁女孩身高资料(cm)均数为143.08,标准差为6.58。求该地14岁女孩身高的95%参考值范围。下限为:143.08–1.96×6.58=130.18(cm)上限为:143.08+1.96×6.58=155.98(cm)该地14岁女孩身高的95%参考值范围为130.2~156.0(cm)。二、正态近似法 例2:某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L),标准差为0.7(L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。下限为:4.2-1.64×0.7=3.052(L)该地成年男性的第一秒肺通气量95%参考值范围为:不低于3.052(L)。参考值范围:>3.052(L) 三、百分位数法200名血铅频数表及P95计算表组段频数f累计频数f累计频率(%)3~363618.58~397537.512~4712261.018~2015276.023~1817085.028~1618693.033~318994.038~719698.043~119798.548~119899.053~119999.558~621200100.0 正态性检验图示法:概率图(probability-probabilityplot,P-P图)分位数图(quantile-quantileplot,Q-Q图)Q-Q图效率较高。 变量变换(variabletransformation)通过对原始数据进行某种函数的转换,使得各组方差齐同、稳定,或者使得偏态资料正态化,以满足统计分析方法对资料的要求。 常用的变量变换主要有:对数变换(logarithmictransformation)平方根变换(squareroottransformation)平方根反正弦变换(arcsinetransformation)倒数变换(reciprocaltransformation) 1、对数变换对原始数据X取对数。X’=lgXX’=lg(X+K)或者X’=lg(K-X)适用于:①对数正态分布资料②变异系数接近某一常数的资料 1、对数变换对原始数据X取对数。X’=lgXX’=lg(X+K)或者X’=lg(K-X)适用于:①对数正态分布资料②变异系数接近某一常数的资料SPSS函数命令:LG10(?)或者LN(?) 2、平方根变换对原始数据X开算术平方根。适用于:①服从Poisson分布资料,即各样本方差与均数成比例的资料②轻度偏态分布资料SPSS函数命令:SQRT(?) 3、平方根反正弦变换对原始数据X的平方根取反正弦变换。用角度表示的:Y=ARSIN(SQRT(?))用弧度表示的:Y=(3.14159/180)*ARSIN(SQRT(?))适用于:①率或者百分比的资料:发病率、患病率、淋巴细胞转换率(%)等资料 4、倒数变换对原始数据X取倒数。适用于:数据两端波动较大的资料 作业:P21-22三、计算分析题题1、2、3、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭