属性(分类)数据分析

属性(分类)数据分析

ID:40054850

大小:422.50 KB

页数:46页

时间:2019-07-18

属性(分类)数据分析_第1页
属性(分类)数据分析_第2页
属性(分类)数据分析_第3页
属性(分类)数据分析_第4页
属性(分类)数据分析_第5页
资源描述:

《属性(分类)数据分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第九章属性(分类)数据分析9.1属性数据及其分析9.2SAS中的属性数据分析9.1属性数据及其分析9.1.1属性数据分析与列联表9.1.2属性变量关联性分析9.1.3属性变量关联度计算9.1.4有序变量关联性分析9.1.1属性数据分析与列联表1.属性变量与属性数据分析从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据——列联表;2)检验属性变量间的独立性(无关联性

2、);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。2.列联表列联表(contingencytable)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。表9-1关于改革方案的调查结果(单位:人)表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(c

3、olumn)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。列行第1列第2列…第c列行边缘频数第1

4、行n11n12…n1c第2行n21n22…n2c………………第r行nr1nr2…nrc列边缘频数…9.1.2属性变量关联性分析对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性;H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立;H1:变量之间不独立

5、1.2检验在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即(j=1,2,…,c)或(j=1,2,…,c)其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为:在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r-1)(c–1)的2分布。由于2分布是一种连续性分布,而属性数

6、据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。注:通常要求2检验应满足的条件是:n≥40且所有单元的期望频数均不小于5。2校正的条件:n≥40但有单元的期望频数小于5。2.Fisher精确检验Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。Fisher精确检验计算在H0成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p

7、之和对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中每个表的单元ij中频数小于(大于)或等于观测表中相应的频数。9.1.3属性变量关联度计算1.φ系数φ系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为:其中,2即2统计量。

8、φ

9、的取值范围是在0~1之间,φ的绝对值越大,说明行变量与列变量的关联程度越高。φ=0,表示变量之间相互独立;

10、φ

11、=1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。当列联表rc中的行数r或

12、列数c大于2时,φ系数将随着r或c变大而变大,且φ无上界。此时可用列联系数。2.列联系数列联系数(Contingencycoefficient)简称为c系数,主要用于大于22表的情况。c系数的计算公式为:c系数的取值范围:–1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。