调查数据的分析与统计

调查数据的分析与统计

ID:12554477

大小:16.40 KB

页数:6页

时间:2018-07-17

调查数据的分析与统计_第1页
调查数据的分析与统计_第2页
调查数据的分析与统计_第3页
调查数据的分析与统计_第4页
调查数据的分析与统计_第5页
资源描述:

《调查数据的分析与统计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、调查数据的处理与分析 一、数据处理     1.数据录入。数据录入是将在问卷编码部分所标记的符码及文字输入到计算机中,形成可供统计软件处理的文件格式的过程。因此,保证这一过程的完整性、准确性及标准化是其最基本的原则。遗漏问卷信息、录入错误、变量赋值不统一等问题是问卷录入中比较容易犯的错误,它在很大程度上影响了后续研究的科学性。    在数据录入前,首先要检查回收的问卷,看问卷、访问记录与各项表格是否有缺漏。然后创建编码手册,以便为录入工作提供一个统一的标准,也为此后的数据核查及研究工作提供依据。此外,我们要对问卷进行审核和编码

2、,尤其要在审核中检查跳答或其它特殊编码的一致性。    实际录入时,可以通过试录,检查编码手册及录入程序等的周全无误;并编写录入说明,建立标准工作流程;录入前要对录入人员进行培训,以统一操作规范;在录入中要设计工作记录表,使录入工作责任到人,避免重复作业和掌握进度。目前许多大型社会调查还采用双录核查,即对一份问卷由不同的录入员录入两次,比对两次录入数据并核对问卷,找出错误原因。双录入的方法基本上可以消除了录入环节的手工误差。    2.数据清理与校验。一份调查数据的产生,经过较多环节,各环节的错误都会反映在数据中。所以当录入完

3、成后,必须对数据进行核查,既要发现录入中存在的问题,检查数据与问卷记录的信息是否一致,也要检查其他原因造成的错误。数据核查包括:检查录入的原始数据文件的记录数与问卷份数是否一致;检查原始数据文件变量顺序与问卷题目顺序是否一致;核查样本编号;不合理值核查;逻辑一致性核查。其中,重点是检查样本编号、非法值、极值和变量间的逻辑。    3.数据归档。一项调查结束后,在研究人员进行分析数据以前,还需要对调查的数据建立相应的“档案”资料,同数据一起交给研究人员。这样,随着时间的推移,其他研究人员可以通过原始数据及其数据档案了解相应数据的

4、背景信息,这项工作也称为“数据归档”。另外,随着研究的展开,可以将与该项调查有关的研究报告、发表论文等相关信息也逐渐补充到数据档案中,为进一步研究提供翔实的信息。    4.抽样数据的加权。在抽样调查中,由于设计和调查实施的原因,每一个被选对象的入选概率可能和实际情况不相符。比如,许多涵盖城乡的全国调查为了节约调查费用,减轻调查难度,会人为地降低农村人口的抽样比例。又如,由于调查周期和方式的限制,样本的性别、年龄等构成有可能偏离人口统计的指标。因此在数据录入完成后,我们需要根据抽样方案的设计,参照权威的人口统计指标,对抽样调查

5、数据进行加权,经过加权的数据能更准确地推断总体状况。    二、数据分析    1.单变量描述统计。在对数据进行分析时,首先关心的是通过各个变量的次数分布、集中趋势、离散趋势所描绘出的研究对象的基本特征。    在描述性统计中,最常用的统计方法就是频数,即通过对数据进行统计分组和汇总所得到的各组次数分布情况,而将其除以样本总数,就是我们常用的百分数。虽然频数描述了研究对象的整体特征,但它是通过对若干组的统计来实现的,如果需要用一个数值来概括变量的特征,那么集中趋势的统计就是最合适的。所谓集中趋势,就是一组数据向一个代表值集中的

6、情况。    仅有集中趋势的统计还不能完全准确地描述各个变量,这时因为它没有考虑到变量的离散趋势。所谓离散趋势,是指一组数据之间的离散程度。其最常用的统计量是标准差,它是一组数据中各数值与算术平均数相减之差的平方和的算术平均数的平方根。    在单描述性统计中,集中趋势的统计量包括众数、中位数和平均数,离散趋势则包括异众比、全距、四分位数、方差和标准差。前者体现了数据的相似性、同质性,后者体现了数据的差异性、异质性。    2.双变量和多变量关系分析。在问卷调查中,除了对单一变量进行描述和分析外,还要探讨变量之间的关系。这就涉

7、及多变量分析。社会现象的复杂性只有通过在抽样调查中,以变量间关系的分析,才能得到较好的描述和解释。    最简略的变量间关系便是双变量关系。我们可以通过交互列联、分组平均数、等级相关、积矩相关、一元回归等双变量统计方式考察两个变量之间是否存在关联。双变量统计可以初步地揭示社会现象间的影响作用。比如,通过做在业人口中性别变量与月工资收入变量的关系统计,发现男性在业人口的月收入平均为2800元,而女性只有2200元,这提示我们不同性别的收入是有差异的,性别是影响收入差距的因素之一。    然而,社会现象的影响作用往往不是单一因素决

8、定的,如果我们考虑到更多的影响因素,就应该引入多变量关系统计的方法,即同时考察多个自变量对因变量的影响作用。比如,我们将在业人口的月收入看作是因变量,将性别、教育程度、行业、职业、年龄等视为多个影响因素,采用多元回归的统计方法,可能会发现,影响收入差距的主要因素是教育程度、职

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。