抽样调查 - 山东统计信息网

抽样调查 - 山东统计信息网

ID:11265678

大小:1.85 MB

页数:103页

时间:2018-07-11

上传者:xinshengwencai
抽样调查 - 山东统计信息网_第1页
抽样调查 - 山东统计信息网_第2页
抽样调查 - 山东统计信息网_第3页
抽样调查 - 山东统计信息网_第4页
抽样调查 - 山东统计信息网_第5页
资源描述:

《抽样调查 - 山东统计信息网》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第二部分抽样调查在社会主义市场经济的新形势下,调查主体发生了很大变化,依靠传统的调查方法,难以实现统计工作“快、精、准”的要求。统计数据的质量和时效性是统计的生命,加快统计体制改革,建立适应社会主义市场经济需要的统计体制,最迫切的任务是改革调查方法体系,推广抽样调查技术。本章重点介绍抽样调查方法及应用,旨在提高统计人员的抽样调查理论水平及实际应用能力。第一节抽样调查的基础知识一、抽样调查与非抽样调查统计调查是获取数据(资料)的一种重要手段,它又分为全面调查和非全面调查两类。1、全面调查是针对总体的每一个单元都进行信息搜集的调查,故亦称为普查。如我国进行的人口普查、工业普查、农业普查、基本单位普查等等,我国长期实行的统计报表制度,由于具有行政指令性,统计数据全面逐级上报,也属于普查的范畴。普查可以使人们对调查对象进行全面的了解。在理想的情况下,即对每个调查对象的测量结果都准确无误,调查的对象既没有重复也没有遗漏,数据在汇总中未出现任何差错,普查结果是准确可靠的。但在实际工作中,普查要投入大量的人力、物力,调查的规模庞大,组织工作艰巨,且需较长时间,因此普查不可能频繁进行。普查的前提至少要满足以下条件中的一个:1)要了解的总体信息内容相对比较简单,比较容易调查;—197— 2)要了解的总体信息内容十分重要;3)不仅要了解总体的信息,还要了解总体的许多分组分类的信息;4)调查主体既有足够的资金力量,同时又有足够的动员力量。2、非全面调查仅对总体一部分单元进行信息搜集的调查。抽样调查是非全面调查中最常用、最重要的一类。3、抽样调查也称样本调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单元来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。抽样调查数据之所以能用来代表和推算总体,主要是因为抽样调查本身具有其它非全面调查所不具备的特点:1)调查样本是按随机的原则抽取的,在总体中每一个单元被抽取的机会是均等的,因此,能够保证被抽中的单元在总体中的均匀分布,不致出现倾向性误差,代表性强。2)是以抽取的全部样本单元作为一个“代表团”,用整个“代表团”来代表总体。而不是用随意挑选的个别单元代表总体。3)所抽选的调查样本数量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。4)抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单元之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。基于以上特点,抽样调查被公认为是非全面调查方法中用来推算和代表总体的最完善、最有科学根据的调查方法。根据样本抽取方法的不同,抽样调查可分为概率抽样和非概率抽样两类。4、概率抽样—197— 也称随机抽样是从构成总体的所有单元中按一定程序随机选择一部分单元进入样本的抽样方法。概率抽样具有以下特点:1)能够表明一个确定的样本包含哪些单元。2)对每个可能的样本,都有一个确定的被抽取的概率。3)以随机原则抽取样,不受任何主观因素的影响,使每一个单元都有一定的概率入选样本。4)从样本数据估计总体特征时,需要考虑该样本被抽中的概率。概率抽样的优点是能够保证样本的代表性,避免人为因素的干扰。概率抽样还有一个优点是根据概率样本估计总体特征时,可以对样本产生的抽样误差进行估计。这是非概率抽样所无法比拟的。概率抽样又分为多种形式:简单随机抽样、不等概率抽样、分层抽样、多阶抽样、整群抽样和系统抽样等等。5、非概率抽样是相对于概率抽样而言的,是指样本不是按照一定的概率抽出,而是由抽样者主观抽出或受访者自愿进入样本的抽样方法。非概率抽样有多种方式,主要有判断抽样、便利抽样、自愿抽样、滚雪球抽样、配额抽样等,我们常用的典型调查和重点调查都属于非概率抽样。由于非概率抽样不能保证样本的随机性,因此根据非概率样本估计总体特征时,不可避免地以下缺点:1)难以评价样本的代表性。2)无法估计抽样误差。3)偏倚往往较大。抽样调查具有明显优点,但抽样调查与全面调查并不是完全对立的,在实际工作中发挥着各自的特殊作用,需要多种方法结合起来使用。—197— 首先,抽样调查可以和普查相结合。抽样调查可以作为普查的补充调查以节约成本,而且抽样调查的数据也可以用来评价和校正普查的数据。普查可以为抽样调查提供一些必要的背景信息,为深入的抽样调查提供分层的依据等。其次,非概率抽样可以作为概率抽样的补充。当我们很难对全体进行抽样,如监测大气质量时,典型调查就是较好的替代方法。在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。比如,城市居民的收支调查,是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合起来使用。二、总体与样本总体和样本是抽样调查中最基本和最常用的一对概念,因为抽样的本身就是通过样本对总体作出估计和推算。1、总体就是我们研究也即进行调查对象的全体。它是由研究对象中所有性质相同的个体所组成的,组成总体的各个个体称作总体单位或单元。例如全国每年进行人口变动量抽样调查,调查的标准时点是上年的12月31日24时,那么全国在该时点生存的每一个人都是调查对象,于是全国在该时刻生存的所有人就构成此次调查的总体。再如某地进行企业调查,调查对象是各行业、各种所有制及各种规模的企业,那么在该地所有国有的、集体的及个体的,工业、商业及交通运输等所有行业,大小不等的所有企业构成一个总体。因此可见,总体的限定是人为的。对于一项调查,调查对象必须明确而不能有丝毫的含混,在抽样调查中,总体一般总是明确的。总体根据其包括总体单位的数目可以分为有限总体和无限总体两种。有限总体是指总体单位能够明确确定,单位数目是有限的。在社会经济的调查中其对象常常是有限总体,如一定时间和空间的企业数、人口数等。反之,若总体中包括的单位为无限时则称为无限总体。例如在科学试验中,试验数据的观察值往往是无限的。总体又有目标总体和实际总体之分,如了解济南人拥有手机的情况,目标总体就应为全体济南人,但考虑一些年龄段(如老人和儿童)的人拥有的比例很低,如果全部调查难免事倍功半,于是实际调查时会加上时空年龄和居住时间等限制,这就形成了一个实际总体。—197— 2、抽样框与抽样单元要从一个总体中抽选样本,很重要的一个问题是需要一个包括全部总体单元的一个框架,因此用来代表总体,从中抽选样本的一个框架就称作抽样框。构成抽样框的单元称为抽样单元。抽样框可能以各种形式出现:名单、手册、地图、数据包……。无论抽样框采取何种形式,在抽样之后,调查者必须能够根据抽样框找到具体的抽样单元。因此,1)抽样框必须是有序的。即抽样单元必须编号,且根据某种顺序进行了排列。2)抽样框中包含的单元务必要“不重不漏”,否则将出现抽样框误差。抽样单元不仅指构成抽样框的目录项,同时还表示该目录项所对应的实际总体中特定的一个或一些单元。抽样单元不一定是组成总体的最小单位—基本单元,可能包含一个或一些基本单元。在简单随机抽样中,抽样单元即为基本单元;而在整群抽样中,群即为抽样单元,而群可能包含相当多的基本单元。抽样单元还可分级。一个大的抽样单元可以分成若干小的单元。如,在对我国进行人口情况抽样时,可以将省份作为抽样单元,先抽省,在省内抽样时又可以将县作为抽样单元,依此类推。三、总体特征与估计量1、总体特征抽样调查的目的在于用样本指标去估计某些特定的总体特征。总体特征是总体某个特征或属性的数量表现。单元的属性通过测量表示为变量,可以记为。仅是这个单元某属性的测量结果,同一单元还可测量其他属性,从而得到、等。总体特征就是对单元属性的概括性数量表现。最常见的总体特征就是总体平均数,这里的就是第ī个单元的变量值,N就是总体中单元的数量,即总体规模。通常我们要估计的总体特征有下列4种:1)总体总值:例如我省人口总数。—197— 2)总体均值:例如家庭月平均收入、粮食的平均亩产量等。3)总体比例:总体中具有某种特定特征的单元在总体中所占的比例或百分率。例如人口自然死亡率、拥有汽车的家庭在某地全部家庭中所占的比例等。4)总体比值:总体两个不同指标的总和或均值的比值。例如家庭中用于食品支出在全部支出中所占的比例。2、估计量与估计方法 估计量是从样本的第n个单元计算出的对总体特征的估计。估计量首先是一个随机变量,它取决于样本设计和正好被选入样本的单元的特定组合。因此,估计量的一个特定取值,也就是一个特定的估计值只是同一样本设计所得到的许多可能的估计值中的一个。相反,总体特征是由总体中的全部N个值所决定的,虽然总体特征是未知的,但它是一个常数,不受抽选的样本的影响。用估计量来估计上述各总体特征,最常见的估计方法是简单线性估计,在简单随机抽样中就是用样本均值直接估计总体均值:  由于总体总值和总体比例皆可化为总体均值,因此可用样本均值再推导出总体总值的估计:及总体比例的估计:(这里为示性变量)除了简单线性估计,还可以借助辅助变量,对总体特征进行间接估计,用样本特征的非线性组合表示总体特征。3、抽样分布—197—  对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可能取值及其出现概率的序列就是该估计量的抽样分布。抽样分布的存在,是我们抽样推断赖以存在的基础。每次抽样只能得到估计量的一个实现值,不能由此得知估计量的分布,但如果不断地抽取样本,计算每个样本的估计值,然后把这些估计值绘制成频率分布图。抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布。抽样分布显示。当从一个比较大的总体N中抽取一个中等容量(30以上)的样本时,无论总体是何种分布,其样本均值Y的抽样分布都近似于正态分布。因此在大样本的情况下可以用正态分布来作区间估计。 四、误差与精度凡是调查就一定有误差,误差或大或小总是存在的,不可能完全避免。在抽样调查中,误差可分非抽样误差和抽样误差两大类。非抽样误差不是由抽样引起的,它包括调查误差,不完整的抽样框引起的误差,不回答误差以及由于填写或录入调查数据中的谬误而产生的误差。非抽样误差与样本量大小无关,这些误差在全面调查中也是存在的,减少非抽样误差的方法主要是严格调查程序,规范调查及加强人员的培训和管理,合理地设计问题和答卷,改进测量方法和工具。抽样误差是由于抽样造成的误差,是用样本数据对总体特征进行估计所引起的代表性误差。由于每次只是抽取一个样本,而这个样本中包含哪些单元是随机的。不同的样本由于包含的单元不同,得到的估计值自然不同。各个估计值与总体特征之间不可避免地存在差距,由此产生了抽样误差。与非抽样误差不同的是,抽样误差是能够计量的,即可用各种量值来表示,而且它可以得到控制。1、均方误差、方差与偏倚设总体某个待估的参数为,用样本数据计算的一个统计量—197— 作为的估计,也称为的一个估计量,简称估计。用估计的实际误差是-,由于是未知的,因此-也是未知的,这说明根据一个样本,实际误差是不可知的。按一种抽样方法所能得到的所有可能样本,对每个样本计算一个估计值,计算这些估计值的平均实际误差,也即实际误差-的均值即期望E(-),则由于误差的正负抵消也不能反映误差的大小。因此我们转而考虑平均平方差,即实际误差平方的均值MSE()=E(-)2MSE()称为均方误差(meansquareerror)。由于未知,在通常情况下,它仍然是未知的。但均方误差可以分解成以下两个部分:MSE()=E[(-E())+(E()-)]2=E[-E()]2+[E()-]2+2E[-E()][E()-]=E[-E()]2+[E()-]2式中的第一项V()E[-E()]2是的方差(variance),而第二项B2()[E()-]2是的偏倚(bias)E()-的平方。偏倚为零的估计量,也即满足E()=的估计量,称为无偏估计量(这种无偏称为是设计无偏的)。对于无偏估计量,它的均方误差等于它的方差。均方误差与方差的量纲均是所取指标值单位的平方,为更直观起见常用它们的平方根来表示相应的数值,方差的平方根称为标准差(standarddeviation)—197— S()估计量的标准差也称为标准误差或标准误(standarderror)。2、误差限与置信度估计量的精度通常用误差限来表示。所谓误差限即是在某种概率意义下的最大绝对误差,这里的概率称为置信度。置信度为的绝对误差限d满足:Pr(|-|≤d)=而置信度为的相对误差限(relativeerrorlimit)满足:=通常置信度1-是某个接近于1的数值,例如99%(=1%),95%(=5%),90%(=10%)等。误差限与估计量的标准差之间有一定的关系(假定估计量是用的),而且这种关系与估计量的分布有关。在抽样调查中,由于总体(特指固定总体模型)是相当明确的,对它的分布通常不作任何假定,加上所得的样本又常是复杂的,故抽样调查中所采用的一般估计量,其精确分布通常是不可知的。但是大量模拟研究及一些理论研究表明,抽样调查中常用的估计量在大样本时是渐近正态的。根据正态分布的性质,若是标准正态分布的双侧分位数,则=1=由此给出的置信度为=1的近似置信区间:—197— 例如对=95%,=1.96,则的近似置信区间为3、精度与费用 精度是误差的相反数,提高精度即减少误差。由于非抽样误差不可计量,精度取决于抽样误差的大小。对可用估计值,在样本量较大情况,抽样误差又取决于方差(或标准差)的大小。在抽样误差中,精度的估计主要就是估计量的方差估计。影响估计量方差的最重要因素是样本量,而样本量与调查费用直接相关,样本量愈大,费用就愈高。4、抽样效果与设计效果在抽样调查中经常要比较两种不同抽样设计的好坏,评介抽样方法的标准通常用抽样的方差和费用两方面来进行。一个好的抽样方案要求在费用固定的情况下使用方差尽可能地小,或者在方差一定的情况下使用费用最省。抽样效率就是指两个抽样方案的抽样方差之比。当某个估计量的方差比另一个估计量的方差小时,则称方差小的估计效率比较高。由于方差的大小与样本的容量有直接关系,因此在比较时,通常以样本量相同时的方差进行比较。如果估计量是有偏估计时,也要考虑偏差的因素。设和分别为两种抽样设计的估计量,它们的均方误差分别为MSE()和MSE(),若MSE()m=176,第3号单元被抽中;第三次:(5,716),M5=718>m=716,第5号单元被抽中;第四次:(9,120),M9=880>m=120,第9号单元被抽中;第五次:(5,60),M5=718>m=60,第5号单元再次被抽中。因此,四个入单元分别为第3号一次,第5号两次,第9号一次。3、估计量在不等概率抽样中,由于各个单元的地位有轻重之分,因此每个样本单元的观测,,…,就不再是同等地位的了,进而对总体参数的估计也与等概率抽样有所不同。汉森—赫维茨对总体总量Y给出了如下的估计:对于PPS抽样,有汉森—赫维茨估计量具有下面的性质:若所有的Zi>0,i=1,2,…,N,则:1、—197— 2、3、若n>1,则是的无偏估计。【例4.3】依然采用例4.1中的数据,设采用与规模成比例的PPS抽样所抽到的4个样本单元为第3号一次,第5号一次,第9号两次,对应的数据如下(表4.3)。表4.3抽中的4个样本单元数据i原始编号目标变量134.631426257.182798398.803520498.803520根据表4.3中给出的调查数据来估计目标变量的总体总量,并给出95%置信度下估计的相对误差。如果要求在相同条件下相对误差达到10%,所需的样本量应该是多少?解:M0=50.81,N=10,n=4的方差及标准差的估计:—197— ≈215.138×5954.72≈1281086.507895%置信度下估计的相对误差:如果要求在相同条件下相对误差达到10%,所需的样本量为:。(注:向上取整才能保证精度达到要求)三、不放回的不等概率抽样(πPS抽样)放回的不等概率抽样,其优点在于实施简单,参数估计和精度计算也很容易,但该抽样方法一个明显缺点是样本中可能出现重复的样本单元,这样就使样本的代表性大打折扣,从而降低了抽样效率。增大了抽样误差。因此不放回不等概率抽样在实际工作中应用更加广泛。1、包含概率与πPS抽样在不放回不等概率抽样中,总体每个单元被包含到样本的概率也就是入样概率=以及任意两个单元同时包含到样本的概率统称为包含概率。对于固定的n,包含概率与满足如下性质:(1)—197— (2)(3)πPS抽样 在多项抽样中,如果是不放回抽样,且每个单元的包含概率与其大小或规模严格成比例,记,有将此种情形的多项抽样简称为严格πPS抽样。严格的πPS抽样实施起来非常复杂,同时由于很难求得,估计量的方差计算相当困难。事实上,严格的πPS抽样只有当n=2时才有一些简单的方法适用,当n>2时,实施起来相当复杂,因此实际工作中为了避开这个难题,有时会先分层再在每层中进行严格的n=2的πPS抽样。2、霍维茨-汤普森估计量对于不放回的不等概率抽样,霍维茨(Horvitz)和汤普森(Thompson)提出总体总和Y的如下估计量:可以看出,霍维茨—汤普森估计量和汉森—赫维茨估计量十分相似。根据πPS抽样的定义,由于,所以πPS抽样与PPS抽样的在形式上是完全相同的。但中的可以重复对应同一个样本单元,而中的则一定对应着不同的样本单元。霍维茨—汤普森估计量具有如下性质:(1)若πi>0,i=1,2,…,N,则;(2)若πi>0,i=1,2,…,N,则为—197— 若n固定,则进一步有:(3)若πi>0,πij>0,(i,j=1,2,…,N;i≠j),则的无偏估计为:若n固定,则有另外一个无偏估计量,即耶茨(Yates)-格伦迪(Grundy)-森(Sen)估计量:通常情况下方差估计量不是很稳定,有时会出现负值,当n固定时,耶茨-格伦迪要比霍维茨—汤普森估计量稳定。当n=2时,始终大于零。【例4.4】假设有5个工厂,每个工厂的员工数已知,但年度奖金发放额未知,请从5个工厂中抽出2个来估计5个工厂的年度奖金发放总额。表4.45个工厂的相关数据—197— i员工数()年度奖金发放额(Yi)包含概率(πi)1145175390.48126982600.2293132160230.438497117310.3225160210380.531∑60374591—注:表4.4中的包含概率是按照公式求得的。利用不放回的不等概抽样从5个工厂中抽取2个,共有10种可能的样本。这10个样本所对应的霍维茨—汤普森估计量以及简单随机抽样的简单估计量如下:表4.5霍维茨—汤普森估计量以及简单估计量样本1,272561.664497.51,373067.083905.01,472931.973175.01,576112.596442.52,372690.660707.52,472555.549977.52,575736.173245.03,473060.869385.03,576241.592652.54,576106.381922.5从表4.5的计算结果可以看出,虽然和在理论上都是总体总量Y的无偏估计,但对于本例说,要明显地好于,因为前者比后者更加集中于真实的总体总量Y=74591。说明此时不放回不等概抽样的霍维茨—汤普森估计量比简单随机抽样的简单估计量更加精确。3、n=2时的严格πPS抽样由于πPS抽样的霍维茨—汤普森估计量具有简单的形式,因此实际应用中π—197— PS抽样的难易程度就取决于具体的实施方法以及包含概率πij的计算。事实上,一些实际抽样调查时可以转化成n=2的问题,例如先对总体分层再在每层中进行严格的n=2的πPS抽样。1)布鲁尔(Brewer)方法布鲁尔方法使用的前提条件是:对于总体中的每一个单元,都必须满足,也就是说,总体(层)中最大的单元必须小于全部单元大小总和的1/2,否则可以将这个“特大”单元作为必然入样的单元。布鲁尔方法采用的是逐个抽取法。先按照与成比例的概率从N个单元中抽取第一个样本单元,将第一个被抽出的样本单元记为j,再按照与成比例的概率在剩下的N-1个单元中抽取第二样本单元。布鲁尔方法的包含概率、总体总量的霍维茨—汤普森估计以及估计量的方差估计如下:【例4.5】倘若例4.4的抽样是按照布鲁尔(Brewer)方法进行的,则所有可能样本对应的πij如下。表4.6例4.4中所有可能样本的πij样本—197— 1,272561.60.0631,373067.00.1391,472931.90.0941,576112.50.1852,372690.60.0552,472555.50.0362,575736.10.0743,473060.80.0823,576241.50.1624,576106.30.110进而可以根据表4.6中的数据计算的期望和方差:而表4.5中给出的简单随机抽样的简单估计量的方差为187558122.75。可见,比要精确得多。2)德宾(Durbin)方法德宾方法同样要求总体中的每一个单元都必须满足,所采用的方法依然是逐个抽取法。首先按照与成比例的概率从总体中抽取第一个样本单元,将其记为i;然后按照与成比例的概率从剩下的N-1个单元中抽取第二个样本单元。可以证明德宾方法中的πi、πij与布鲁尔方法中的πi、πij完全一样,说明这两种不放回的不等概率抽样方法事实上是等价的。—197— 第五节多阶抽样一、什么是多阶抽样1、多阶抽样又称多级抽样,就是将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照一定的规范分成若干抽样单元,称之为一级抽样单元(或称初级抽样单元),再把抽中的一级抽样单元分成若干更小的二级抽样单元,从抽中的二级抽样单元再分三级抽样单元等等,这样就形成一个多阶段抽样过程。2、二阶段抽样 设总体由N个初级单元组成,每个初级单元又由若干二级(次级)单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,则这种抽样称为二阶抽样。在二阶抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶抽样;第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。二阶及多阶抽样应用范围较广泛。它既保持了一阶整群抽样样本单元相对集中的特点。因此与简单随机抽样相比,实施方便,每个基本单元的调查费用也低;另一方面,多阶段抽样,不仅对初级单元进行了抽样,而且对每个被抽中的初级单元实施了再抽样,能够充分发挥抽样的效率,节省了人力和物力。而且,由于多阶抽样是分阶段实施的,因此抽样框可以分级准备:如二阶抽样中,在第一阶抽样中仅需准备总体中关于初级单元的抽样框,在第二阶抽样中仅需对被抽中的单元准备其中关于二级单元的抽样框,使得构造抽样框相对容易些。但由于每一阶抽样中都会带来误差,抽样的阶数越多,抽样误差也会越大,因此划分阶段不易过多。—197— 在社会经济调查中,多阶抽样常用于抽样单元为各级行政单位的情况。如在一项全国或全省性调查中,往往将省、市、县、街道(乡、镇)、居(村)民委员会、居(村)民小组及住户作为各级抽样单元,在此情形,采用多阶抽样显然十分方便。当然抽样单元的分级并不一定与单元的实际(行政)级别吻合。多阶抽样的另一个重要的应用是对于散料的抽样。所谓散料是指连续松散的、不易区分个体的材料,例如矿石、煤、水泥、化肥与粮食等等。对于一批散料,如储藏在一个仓库且已经分装在麻袋的小麦,为估计其农药残留量,显然只能进行抽样测试。先从仓库中抽取若干麻袋,再从每个抽中的麻袋中的不同部位抽取一定数量的小麦样品进行测试。这里分装即是一级(抽样)单元,份样即是二级(抽样)单元。二阶段抽样方法较为常用,更多阶段的抽样估计方法与二阶抽样基本相同,可以类推。故此只介绍二阶抽样。二、初级单元大小相等时的二阶抽样1、符号记为总体第i个初单元中第j个次级单元的指标值,i=1,2,…,N;j=1,2,…,M;为样本中第i个初级单元中第j个次级单元的指标值,i=1,2,…,n;j=1,2,…,m。,分别是第一阶抽样与第二阶抽样的抽样比;,分别是总体和样本中第i个初级单元的指标和;,分别是总体和样本中第i个初级单元指标按次级单元的平均数;,分别是总体和样本按次级单元的均值(平均数);,分别是总体和样本初级单元间的方差;—197— ,分别是总体和样本中同一初单元中次级单元间的方差,也即初级单元内的方差。若令,2、总体均值的估计量如果二阶抽样中的每一阶抽样都是简单随机的,且对每个初级单元,第二阶抽样是相互独立的,则样本按次级单元的均值总体均值估计量的方差由两个分量组成:其中源由第一阶抽样的第一项主要取决于第一阶抽样的样本量n与初级单元间的方差;源由第二阶抽样的第二项主要取决于第二阶抽样的总样本量mn与初级单元内的方差。在通常的情况下,第一项占总方差的绝大部分,因此在固定次级单元样本量mn的条件下,n愈大(m愈小),则方差就愈小。为构造的无偏估计,需找到与的无偏估计。从直观上说,这应该与样本方差与有关。对于有是的无偏估计。—197— 不是的无偏估计。的一个无偏估计为(由于是的无偏估计):可得的一无偏估计:例5.1为分析某城市居民小区居民食品消费量,用简单随机抽样在全部510个楼层抽取n=24个楼层,对每个抽中的楼层再用简单随机抽样抽取m=4户进行调查。总的样本量为96户。试估计该居民小区人均食品消费的户平均值。表5.1用二阶抽样抽取24个楼层96户居民人均月食品消费额资料单位:元ii1240162185197196.001071.3313190162175202182.25304.252192148186169173.75389.5814185201178238200.50717.673168170144167162.25149.58152512301972221224.75500.254187232205210208.50343.0016193208214186200.75168.255210308198183224.753202.2517238200195210210.75368.926256280334216271.502433.0018312258242225259.251418.257192165224241205.501141.6719177230196234209.25752.928187212253189210.25940.9220286247209224241.501124.339208307258210245.752201.5821228254205218226.25430.92—197— 10232182212169198.75815.5822287208197248235.001682.0011294309244286283.25775.5823275240300262269.25628.9212228182312232238.502915.6724184215199237208.75514.92解:在表5.1中列出了每个楼层样本平均数及方差。于是的估计为:=220.2708(元)=950.2713=1041.3058。又,,因而=37.7337+0.2549=37.9886(元)于是的置信度为95%的置信限为:220.2708±1.96×6.1635从而置信区间为(208.19元,232.35元)。3、总体比例的估计当二阶抽样的目的是估计总体中具有某种特定特征的次级单元对总体中所有次级单元数的比例P时,它的一个无偏估计是:—197— 其中是第i个样本初级单元中具有所考虑特征的次级单元数。总体方差:其中是总体中第i个初级单元中具有所考虑特征的次级单元的比例,而。p的方差为:而的一个无偏估计是:其中。例5.2某部委对所属企事业单位就一项改革方案进行抽样调查,采用二阶抽样。先在全部N=1250个单位(平均每个单位职工人数)中按简单随机抽样抽取n=350个单位,然后对抽中的每个单位再按简单随机抽样抽取m=8个职工进行调查。样本单位中赞成此项改革方案人数为k的单位频数(k=0,1,2,…,8),及赞成比例列在表5.2中。试估计该部委全体职工赞成该项方案的比例P,给出估计量的方差估计,并估计此项二阶抽样的设计效应。表5.2某部委350个单位对一项改革方案的调查结果(每个单位随机抽8人,为赞成人数为k的单位频数)—197— k012345678341534641316724800.1250.250.3750.50.6250.750.8751解:N=1250,n=350,=0.28,,=0.032=137.0156-126.1500=10.8656为估计二阶抽样的设计效应deff,按次级单元样本量nm=2800,总的抽样比,可计算简单随机抽样的方差估计为:故—197— 三、初级单元大小不等时的二阶抽样1、一般说明及符号初级单元大小不相等的二阶抽样有两种处理方法。一种是将初级单元按大小分层,使层内的初级单元大小大致相同,从而可用初级单元大小相等的方法处理。另一方法是考虑用不等概率抽样抽取初级单元或虽仍用简单随机抽样抽取初级单元但改变估计量的形式。下面介绍用放回不等概率抽样即多项抽样的方法对初级单元进行抽样。使用的符号:表示总体第个初级单元中第个次级单元的指标值,是总体中次级单元的总数。表示样本中第个初级单元第个次级单元的观测值,,其中分别是第一阶抽样与第二阶抽样的样本量,而分别是抽样比。总体及样本各级总和、均值(平均数)与方差如下:—197— 2、总体总和Y的估计首先考虑第一阶抽样是按多项抽样抽取初级单元的情况。对每个初级单元,设定一个概率,进行次独立放回抽样,每次抽到第个初级单元的概率为。第二阶段则是在每个被抽到的初级单元中以某种形式抽取个次级单元。若某个初级单元被重复抽中,则原来在第二阶抽样抽到的这些次级单元都被放回,然后重新抽取个次级单元。对于二阶抽样中总体总和Y的估计,一般是先对每个被抽中的初级单元,利用第二阶抽样到的样本,估计初级单元的总和,然后再利用单阶抽样的结果进一步估计Y。即先给出的一个无偏估计,再利用多项抽样中汉森一赫维茨估计量从而给出Y的估计:其中是第个样本初级单元相应的值。—197— 方差为:的一个无偏估计量是:如果第二阶抽样是简单随机的,其估计值及方差3、估计量自加权的条件及对初级单元的PPS抽样若一个估计量可以表达为样本观测值总和(或平均数)的常数倍,则称这种估计量(或相应的样本)是自加权的。现在我们寻求二阶抽样中当用多项抽样抽取初级单元时,估计量是自加权的条件。为简单起见,我们将第二阶抽样限制为最常见的简单随机抽样情形。   在实际应用中,最重要也是最常用的情形是第一阶抽样对初级单元进行PPS抽样,即令—197— 。若第二阶抽样是简单随机的,则此时总体总和Y的估计量简化为:若进一步令则估计量是自加权的,此时是样本对次单元的平均数。从公式,可知是总体对次级单元的均值的无偏估计。的一个无偏估计分别为:例5.3某城市进行服装消费量抽样调查,目标量是上一年户均服装消费金额。抽样采用二阶抽样,其中第一阶有PPS抽样(按居委会所包含的户数)抽取个居委会,第二阶抽样是在每个抽中的居委会中用简单随机抽样取户。调查每个样本户上一年全家花费在服装(包括购置成衣、面料以及加工费)方面的总金额,调查结果如表5.3所示。求该市上一年户均服装消费额的估计,并求它的置信度为90%的置信区间。—197— 解:在本例中,第一阶抽样用PPS抽样抽个居委会,第二阶抽样又是按简单随机抽样在每个被抽中的居委会抽同样数量的居民户,,因此所得的样本是自加权的。按上述公式,该市平均每户年服装消费金额的估计及其方差估计分别为:于是置信度为90%的置信限为表5.320个居委会120户年服装消费金额调查数据单位:元居委会序号i年服装消费金额112102610248518305958701600.025651175290352093019401403.33147026503652135178537902032.5415507852100121548023601415.054202050167085027004501356.762920187057802435195026452933.3745303325920795467018302678.3820807859202740180534601965.0921505401201940290034551850.8103560250095023057808951831.71125253302630740225070102580.81259015507954900356030802412.5—197— 13206517802310498518304102230.01438705300540149023751467.515174015652940965253014951872.516430181080099517852801016.71713404850228512500210038954495.018264013651970940165038852075.01964019402770830143012151470.8202390245196045018456501256.71997.2±1.64×174.3元相应的置信区间为(1711.3元,2283.1元)。此例中估计量的标准差比较大,主要是因为样本量不够大。如果想使估计量的标准差降至50元,即是原来的1/3.3486,则样本量应是原来的(3.486)2=12.15倍。若保持每个居委会中抽取6户不变,则应抽居委会数约为243个。第六节整群抽样与系统抽样一、什么是整群抽样1、整群抽样(又称集团抽样) 就是在多阶抽样中,当某一级抽样单元被抽中,该单元包含许多下级单元时,在被抽中的单元内不再进行下一级的抽样,而是对该单元内的下一级单元进行普查。—197— 整群抽样是实际抽样调查中常用的一种抽样方法,一般来说,如果在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。整群抽样的特点主要表现在以下二方面:一是无需明确的抽样框,例如,抽到一个居民小区或工厂生产班组为样本单元时,实施整群抽样可以实地对一户户居民或班组成员逐个进行调查,无需调查前进行名录登记;二是由于被调查的样本单元相对集中,便于调查操作,节省时间和差旅费等等。例如,全国成年人人体尺寸调查,经过多级抽样后,抽取到某地区某工厂的一个班组作为样本单元,由于人体测量需要一套专业仪器,搬运颇为不易,且如果人分散于各部门,组织人员测量也较麻烦,因而对一个班组的全体工人进行整群调查。整群抽样由于抽取的样本单元比较集中,在一个群内各单元之间的差异比较小,而不同群之间的差别往往比较大,因此抽样误差常大于简单随机抽样。为了达到精确度的要求,需要多抽一些群。和简单随机抽样一样,群抽得愈多,精确度愈高,然而群抽得太多又不符合整群抽样节省人力、物力的目的,因此需要研究确定一些数量界限,分析在什么情况下应当整群抽样比较有利,群的规模以多大为好等等。采用整群抽样时,当群的大小(群内包含小单元的个数)接近时,常采用简单随机抽样抽取群;当群的大小差异比较大时,为提高效率则更多采用不等概率抽样(按与群的大小成比例的概率抽样)方法。2、群的划分原则整群抽样中的群大致可分为两类,一类是根据行政、地域以及自然形成的群体,如学校(或班级)工厂(或车间)等,抽取这一类群主要是为了方便和节约费用。其群间的差异一般无法由调查者来控制;另一类群是一个连续的总体,调查者可以根据需要进行划分。例如一大块面积划分成不同的大小面积群。在这种情况下就需要研究划分群使方差和费用达到最优。—197— 分群的一般原则。根据方差分析的原理,当总体划分成群以后,总体方差可以分解为群间方差和群内方差两部分,为两部分相互制约,若群内方差大,则群间方差小,反之群内方差小,则群间方差大。由于整群抽样是把抽中的群的所有单元进行调查,因此影响整 群抽样的误差大小主要是群间方差。因此,要使整群抽样的误差缩小,分群时应使群内方差尽可能大,而使群间方差尽可能小,这和分层抽样时分层的原则恰恰相反。二、群规模大小相等的整群抽样总体中N个群体的规模大小都相等(==…==)的情形,此时对群的抽取均采用简单随机抽样。1、符号说明记为总体中第i群中第j个次级或基本单元的变量值(i=1,2,…N,j=1,2,…M);为样本第i群中第j个次级或基本单元的变量值(i=1,2,…n,j=1,2,…M)。而f=n/N是整群抽样比。分别是总体和样本中第i群(按次级或基本单元考虑的)的变量值和,简称为总体群和,简称为样本群和。分别为第i群(按次级或基本单元考虑的)总体均值和样本均值。分别是总体和样本的“群和平均”。,分别是(按次级或基本单元考虑的)总体均值和样本均值。—197— ,分别是(按次级或基本单元考虑的)的总体总方差和样本总方差。==分别是(按次级或基本单元考虑的)的总体群间方差和样本群间方差。分别是(按次级或基本单元考虑的)的总体群内方差和样本群内方差。2、估计量在对总体均值、总体总值、总体比例和总体比率四个方面的总体特征估计上,其核心估计量是样本均值。总体均值的简单估计量为总体总值Y的简单估计量为—197— 的无偏估计是:例6.1  在一次针对某城市大学生月生活费支出的调查中,以小组为群进行整数抽样。每个小组都有M=8个大学生。采用简单随机抽样在全部N=510个小组中抽样n=12个小组。全部96个样本大学生人均月消费额及按小组计算的平均数与标准差如表6.1所示。试估计该城市大学生人均月生活费支出,并给其95%的置信区间。表6.112个小组96位大学生人均月生活费支出资料(单位:元)i1234567891011126861357863168515556995737941521100617741974166097713811285793171966654018331295863165711491837665199664612001407952167585016401842700102198251616185978271475102212846941449817537150713651098176380917161900189812391124532164218745046671267120896612545651721169399297211671900107018851436137879817741991109010111183767175610911669638167217471671988769943.3971190.8421150.7571376.011067.1961349.94945.61181186.511468.7831292.8021363.7561449.695353.4919413.8756413.7475586.5301369.6437494.9176351.7971432.9491403.0206470.4142481.2862419.2959解:N=510,n=12,M=8,f=0.002344—197— 根据表6.1中所列数据,可计算的平均数和标准差:  (元)于是,因此,的估量值的方差估计为:从而95%的置信区间为(1130.677元,1333.539元)。3、群内相关系数与设计效应群内相关系数表示同一群内不同次级或基本单元的变量值对总体均值的离差成积的期望值与总体中所有次级或基本单元变量值对总体均值离差平方的期望值之比,即:式中分子和分母都是期望“E”的形式,表示对i,j,k求平均,因此,进一步可以表示如下的形式:当N大时,上式可写成—197— 利用的无偏估计式有群内相关系数的取值,如果群内次级或基本单元变量值都相等,则,此时,取最大值1;如果群内方差和总体方差相等,则,此时表示分群是完全随机的;如果群内方差大于总体方差时,则取负值;如果时,达到极小值,此时。因此取值范围是。利用群内相关系数,总体均值的估计量的方差可写成以下形式:若按简单随机抽样直接从总体中抽取个次级或基本单元,则样本均值的方差均为:因此整群抽样的设计效应为:    —197— 在同样的样本量(以次级或基本单元数计)情况下,整群抽样的方差约为简单随机抽样的方差倍。例6.2  某地进行学生身体素质调查,其中一项为学生身高,采用以学校为群的整体抽样。其中男生组抽了9个学校,共测了740人;女声组抽了7个学校,共测了531人。表6.2及表6.3分别以身高(单位毫米)为变量值的男女生两组样本资料的平方和分解表,试计算各自群内相关系数及整体抽样的设计效应。表6.2  9个学校男生身高资料的平方和分解变差来源平方和自由度均方(方差)群(学校)间356188=4452群(学校)内1978596731=2707总计2014214739=2726表6.3  7个学校女生身高资料的平方和分解变差来源平方和自由度均方(方差)群(学校)间191126=3185群(学校)内1216203524=2321总计1235315530=2331解:根据表6.3及表6.3的数据可以计算群内相关系数如下:男生组:9个学校的测量人数为740人,平均每个学校测量人数=82人说明为了达到同样的估计精度,采用整体抽样的样本量约为采用简单随机抽样的1.6318倍。也就是说此时整体抽样的精度相当于样本量为740/1.6318453人的简单随机抽样精度。—197— 女生组:7个学校测量人数为531人平均每个学校测量人数=76人    说明为了达到同样的估计精度,采用整体抽样的样本量约为采用简单随机抽样的1.3675倍。也就是说此时整体抽样的精度相当于样本量为531/1.3675388(人)的简单随机抽样的精度。在多数情况下,群规模大小是不相等的。若相关不多,则一般以平均群大小同代替同,仿照群规模大小相等的情形进行处理,如果相关较大,通常有两种处理方法,一种是将群按大小分层,使每一层内群的规模大小基本相等,从而使用群规模大小相等时的处理方法,另一种方法是按群规模大小不等情形处理,此种方法不作介绍。三、对比例估计的整群抽样估计总体中具有特征的次级或基本单元比例的整群抽样。1、群规模相等情形在群规模大小相等(设为M)的情况下,此时此级或基本单元的变量值只能取0(当次级或基本单元不具有所考察的特征)或1(当次级或基本单元具有所考察的特征)两种可能的数值。我们以Ai,Pi分别代表第I群中具有所考察特征的次级或基本单元数及在次级或基本单元总数中的比例,如果在总体中采用简单随机抽样抽取n个群,则样本中具有所考察特征的次级或基本单元对样本次级或基本单元总数之例—197— 是总体相应比例P的无偏估计,且它的方差为:其中是N是总体中群的总数,而f是抽样比,V(p)的一个无偏估计是: 样本量为的简单随机抽样的方差为:    这里的Q=1-P2、群规模不相等的情形当群大小不等时,若对群的抽样仍采用简单随机抽样,记所抽到的大小为Mi,群中具有所考虑特征的次级或基本单元数为Ai。总体比例P的估计可采用:将Ai作为第i群的变量值,群大小Mi看作比率估计中辅助变量Xi的值,则上式中的p即是比估计中。当抽的群数n大时,—197— 其中是总体群的平均大小。V(p)的估计则可用:例6.3 为估计某学校学生中男女性别的比例,用简单随机抽样抽取n=10个班级,每个班级的学生总数Mi,男生与女生人口数Ai与Bi的数据见表6.4。现要求对男女学生的性别比例分别做出估计(1-f可忽略),并估计deff的值。表6.410个班级的总学生数Mi,男生数Ai及女生数BiiAiBiMiiAiBiMi12345252126212621232722214644534347678910232221272220212620284343474750解:根据表6.4中的数据有:  n=10,,,,男生在学生总人数中所占的比例与女生在学生总人数中所占的比例的估计量为:—197— ,=49.46%与的方差是相等的,按的公式计算,方差的估计为:=于是标准差的估计为:为估计deff,我们先求样本量为463的简单随机抽样方差。取P=Q=0.5,则,设计效应deff=可见此时整群抽样的精度要显著高于简单随机抽样。取=46.3,还可以进一步计算群内相关系数:因为1+(-1),所以。群内相关系数为负值表明以班级为群,群内性别差异大于随机分组。事实上一个班级中性别结构是比较均衡的,群(班级)内差异大,群间差异小。因此对于这种特殊的群结构,整群抽象是最为适宜的。四、系统抽样—197— 1、系统抽样(也叫机械抽样或SYS抽样)是将总体各单元按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法。最简单的系统抽样是等距抽样。系统抽样最突出的优点是简便易行。与简单随机抽样相比,系统抽样要简便得多,因为它只需要随机确定一个(或少数几个)起始单元,整个样本就自然确定。另一方面,系统抽样对抽样框的要求也比较简单,它只要求总体单元按一定顺序(自然顺序、人为顺序、假想的顺序均可)排列,而不一定是一分具体名册或清单。系统抽样的误差大小与总体单元的排列顺序有关。因此当对总体的结构有一定的了解时,可以利用已有的信息对总体单元进行排列后再进行系统抽样,能够提高抽样效率。在一般情况下,系统抽样使样本单元在总体中散布比较均匀,其估计量的方差要小于简单随机抽样。因此这是大规模的抽样调查时比较常用的抽样方法。系统抽样也有它的局限性。对于一般的直线等距抽样,当时,样本平均数作为总体均值的估计不是无偏的。为了获得无偏估计量,需要对其进行修正。同时在实际抽样时许多行之有效的系统抽样甚至不是严格的概率抽样,因而会给抽样误差的估计带来很大的困难。2、系统抽样的方法1)直线等距抽样。设总体单元为N,欲抽取的样本容量为n,则先算出系统抽样的间距K,,也称抽样距离,实际把总体单元分为n段,每段中有K个单元,然后在1-K中随机抽选一个数目,设为,则第个单元为抽中单元,以后每隔K个单元为一抽中单元,即直到抽满n个数目为止,其相应的单元即为所要抽取的样本。此种方法的第一个单元是随机确定的。—197— 2)对称等距抽样。当总体单元的排列顺序呈现线性趋势时,采用中心定位系统抽样固然可以纠正系统性偏差,但是对该总体而言,排队确定后,只能抽取一个固定的样本,推动了随机性。对称系统抽样方法则能够改变样本的抽选方法以消除由于位置引起的系统偏差。其方法是,当n为偶数时要从N个单元中抽取n个样本单元,先将总体N个单元分成个组使得每组包含2K个单元,然后在1-K中随机地确定抽样地点,按下面的公式在每组中抽取距该组两端等距离的两个单元。当n为奇数时,仍按上式进行,但j在取到为止,并要增加靠近终端的一个样本单元:3)循环等距抽样。当N为有限总体而且N不能被n所整除,也即K不是一个整数,这时K只能取一个比较接近的整数,这时用直线系统抽样就可能产生偏误。采用循环系统抽样方法,将总体排成首尾相接的循环园形,用同样的方法确定间隔K,K可以取最接近的整数,在1-N中抽取一个随机起点,然后每隔K个单元抽取,直到抽满为止。4)修正的直线等距抽样。由于循环等距抽样比较麻烦,为了解决时,直线等距抽样产生偏差的情况,可在抽选时略加修正,其方法是在1-N中取随机数将该数除以抽样间隔K,将余数作为起点,这样虽抽到的可能样本数与直线等距抽样是一样的,但是每个单元被抽中的概率却有所不同。五、系统抽样估计量方差的估计—197— 系统抽样作为整群抽样样本容量为1的抽样,无法使用整群抽样的理论对估计量的均方偏差作出估计。这是重点介绍在实际工作中常用的系统抽样时的方差估计。为方便起见将系统样本观察值按其在总体中的顺序记为,用估计总体均值时的方差的估计。1、系统样本作为简单随机样本对待,从而采用相应的方差估计:2、设n为偶数,将样本观察值按顺序两两分成一组,第I组两个观察值的(样本)方差估计为,将个这样的值进行平均,再乘上,从而得到3、考虑从第二个样本观察值起,每个与前一个组成一组,共n-1组,与上面同样的思路则可得另一种方差估计:4、将样本量为n的系统样本分成m个子样本独立地抽取,每个仍用系统(等距)抽样,样本量为,抽样间距为,每个子样本的起始值独立地抽取。记第个子样本的均值为,若令—197—    则的一个无偏估计量是   以上子样本的抽取上相互独立的,样本单元也有可能重复。也可采用将样本量为,抽样间隔为的系统样本分成m个系统子样本,每个子样本的样本量为,间隔为。但这样的子样本相互不独立,也平不再是无偏的了。这种方法称为交叉子样本法,也称随机组法。第七节二相抽样一、什么是二相抽样二相抽样(又称二重抽样) 就是先抽取一个容量比较大的初始样本,用初始样本估计总体的某些参数或某些必要的信息作为分层的比例或再次抽样的标志,然后将抽出的初始大样本作为"总体",从中抽取容量合适的样本进行比较详细的调查。当然这种方法也可以推广多次抽取样本,然后结合起来对总体的有关标志值进行估计,这就是多相抽样或多重抽样。二相抽样有多种用途,归纳起来主要有以下几方面的作用。—197— 1)节约调查经费。在一个大规模的多项调查中,对于不同的项目,由于单位之间的差异不同,或者要求的正确程度不同,因此所需要的样本量大小往往是不相同的。如在住户家计调查中,对高档耐用消费品及旅游开支等调查就需要有较大样本量,对家庭日用品、粮食、油、盐等的开支调查仅有小样本即可取得调查数据。2)提高抽样效率。利用分层随机抽样时要事先将总体单元分成层,利用辅助信息来提高抽样效率,但在部分情况下,抽样并没有现成的总体辅助信息可供使用,在这种情况下就需要采用二重抽样先抽一个大样本以获得这些信息,然后再对较小的第二相样本进行实际调查并利用第一重样本中所得信息改善估计量的精度。3)一些连续的时间序列样本,不同时间的标志值之间往往存在着相差,若采用部分样本拼配轮换的方法采用组合估计量,可以提高估计精度。二重抽样可以用来研究样本轮换中的有关问题。二、为分层的二相抽样1、二相分层抽样的抽选方法在进行分层抽样时,有一个前提,即总体的N个单位能明确地划分成h层,要求每个单元分入其中一个层,既不遗漏也不重复,每层的总体单元数Ni(i=1,2,……h)是已知的,从而各层的权重Wi=也是已知的,这样才能通过各层的样本估计值对总体标志值作出估计。但是当总体单元在各层分布的情况未知时,通常情况下(不考虑事后分层)就不能采用分层抽样的方式,即使抽取了样本,取得各层的样本均值也不能按总体的权重来加权。如果采用样本的权重wi=来加权,就会由于权重的偏差而使分层抽样的得益受到影响,而且样本愈小权重产生的偏差愈大。二相抽样的出发点就是先抽选一个较大的样本,仅按分层标志将每个单元分入每个具体的层,从而取得各层的权重,而不必进行具体的详细调查,这样第一重样本的费用就比较低,然后再抽取一个较小的样本作详细的调查,利用第一重大样本取得的信息主要是作分层估计。其具体的抽选方法是:—197— 第一步先从总体的N个单元中随机地抽取一个较大的样本,其样本量,对这个大样本按照分层的标志进行分层,设分为h层,各层单位数分别为(i=1,…h)且,于是第一重样本中的是总体层权的一个较好的估计。第二步从中抽取一个较小的样本n,用分层抽样的方法从第层的个单元中抽取个,其抽样比为,即。2、二相分层抽样的估计方法在抽取了第二重样本并进行调查以后,其总体均值的估计量及其方差的估计公式如下:其中:例7.1某城市欲调查该市个体商业户全年的销售总额,已知该城市注册登记的个体商业户有8000户,由于它们之间大小差别较大,拟采用分层抽样,但又缺乏现成的分层资料,故采用了二重抽样的方法,第一重样本,根据其自报的销售额可分为四层:30000元以下;30000元至10万元以下;10万元至20万以下;20万元以上。然后在第一重样本分层的基础上,在各层中分别抽取子样本。—197— ,对这200户个体商业户作了详细调查核实,取得有关数据整理成表7.1。试估计该城市全年个体商业户的销售总额及其抽样标准误。表7.1某城市个体商业户的样本数据分层第一重样本第二重样本3万元以下5408024001.013万元-10万以下32060731002.7110万元-20万以下1004015960015.3820万以上40204045120690.53合计1000200解:可以先估计平均每户的销售额,再乘以总户数即可得到全市的总销售额。由表7.1的数据可得:,各层的样本均值分别为,根据公式。全市共有8000户,故销售总额为:。再计算方差的估计值,按公式可分两部分计算:—197— 所以 销售总额的抽样标准误估计值为:。三、为比估计的二重抽样1、二重抽样比估计的抽选方法在抽样调查过程中,采用比估计方法时一般需要辅助变量的有关信息,设研究的变量为Yi,辅助变量为Xi,在估计总体均值时,就需要辅助变量总体均值的信息,于是有,当估计总体总量Y时,就需要有辅助变量的有关信息时,就可采用二重抽样的方法,先抽取一个样本量较大的第一重样本,用来估计(代替)总体的辅助变量。然后,再抽取一个第二重样本,其样本量为n,用来获取的信息并计算比率。这样就可以采用比率估计的方法来推断总体。2、二重抽样比估计方法和其他比率估计的形式一样,所不同的是在二重抽样情况下辅助变量的总体均值是未知的,要从第一重样本估计而得,即。其总体均值的估计量及其方差估计的公式为:—197— 其估计量的性质,和简单随机抽样条件下比率估计量的性质是一样的,这是一个有偏的估计,其偏差随着的增大而缩小,其方差也由于抽取第一重样本而增大。例7.2某县共有200个村,现欲估计去年全县平均每村的肉猪交售头数,已知肉猪的交售头数与生猪年终存栏头数之间有较高的相关,而且存栏头数的资料较容易取得,拟采用比率估计的方法,先抽取80个村作第一重样本,得年终平均的生猪存栏数为1080头,然后在这80个村中又抽选了13个村作为第二重样本,分别统计了年终的存栏头数和肉猪的交售头数,其资料如表7.2。试估计该县去年平均每村交售肉猪头数,并计算其标准差。表7.2某县生猪存栏与交售肉猪的样本数据样本村年终生猪存栏头数全年交售肉猪头数155061027207803150016004102010305620600698010507928977812001440913501570101750221011670980127298651315301710解:由表7.2的数据得—197— 并由第一重样本求提,根据公式头其方差估计为:为了计算方便用代替,并得(头)。第八节抽样调查方法应用介绍一、抽样调查的具体实施步骤抽样调查作为一项系统工程,严格按照既定程序执行是调查效果的重要保证。(一)调查目标确定—197— 调查中最重要的任务之一就是规范地表述调查目标。这不仅意味着明确调查所要求的信息,也包括尽可能清晰的概念、操作定义和分类。要达到这个目的就要有明确的主题、概念和定义,要决定研究中包括哪些对象,调查目标最后应表明:调查需要的信息,数据的基本用途和使用者,概念化和操作化的定义,调查内容,分析计划。(二)抽样框选择抽样框有各种形式,可能是已有的现成清单如计算机数据文件、电话簿,也可能是概念性的抽象名单,还可能是地理上的地图(包含对应地理位置上的各种基本单元)等。得到抽样框大体上有三种途径:使用已有的抽样框,补充现有的抽样框,建立全新的抽样框。抽样框的选择对调查总体的定义、收集数据的方法、抽样方法和估计方法产生直接影响,也会影响到调查费用和调查质量。(三)抽样设计抽样方法的选择受诸多因素的影响:可用的抽样框,总体的散布程序,调查每个单元的费用以及对所取得调查数据的分析方法。而样本量的大小,则直接影响着调查费用,调查花费的时间等。样本量的确定要综合考虑各种不同甚至矛盾的要求,如估计精度、客观约束等。(四)问卷设计调查表或调查问卷是用于从被调查者那里获取某方面信息的一组或一系列问题,在数据收集过程中起着核心作用。(五)数据搜集数据收集是从选定的抽样单元中获取信息的过程。数据收集的方法有问卷调查、直接观察、电子数据记录及使用使用行政数据。(六)数据编码与录入数据收集上来以后,要整理成便于电脑识别处理的数码形式。编码是为回答内容赋予一个数字以方便数据的整理和处理,数据录入则是调查内容转变成电脑容易识别的形式,并以数据库进行保存。数据编码与录入事关数据质量。(七)审核与插补—197— 审核就是检查鉴别缺失、无效和不一致的数据。审核的目的是更好地理解调查的进程和数据来保证最终数据的完整、一致和有效,审核贯穿于调查的各个阶段。对审核中发现的错误可以通过推测被调查者的回答或人工复核来弥补。但由于时间和费用的限制,要修改所有错误几乎是不可能,通常采用插补的方法,但选择选择插补的方法要依据调查的种类、调查目标和错误的性质确定,因为插补虽可提高数据质量,但不能保留变量间的关系,甚至会扭曲数据之间的内在联系。(八)参数估计一旦数据已经完成了整理、编码、编辑、录入,就应计算出结果(估计量),总体特征如总量、均值、比例、比率等参数估计,并计算抽样误差等。(九)数据分析和调查结果的表述数据分析是调查过程中最重要的环节之一,分析的质量和沟通的程度可以在很大程度上对各个步骤的效果产生正面或负面的影响。(十)数据发布数据发布是将调查数据向使用者公布,数据发布应注意揭露控制问题。(十一)文档所谓文档是关于调查的详细历史记录,包括调查的每一个步骤和阶段以及调查的不同方面。二、我国政府统计中部分采用抽样调查的报表制度抽样调查具有节省人力物力、调查误差小、操作灵活和取得资料较快等优点,抽样调查的实践和理论发展迅速,已成为统计调查中重要的方法之一。目前,在我国政府统计部门的人口变动情况调查、城乡住户调查、农产量调查、物价调查、农村劳动力结构及固定资产结构调查、企业景气调查、规模以下工业、个体和限额以下批发零售贸易餐饮业调查等等均采用抽样调查的方式,从组织结构上自1984年以后分别成立了农调队、城调队及企业调查队。—197— 1、人口变动情况抽样调查进行年度人口变动情况抽样调查的目的是为了准确、及时地掌握全国和各省、自治区、直辖市人口变动以及人口计划执行情况,为国家和省级人民政府制定国民经济和社会发展计划,掌握人口增长情况提供可靠的人口数据。人口变动情况抽样调查,采用在抽中的调查小区(调查群)中,按常住人口登记的原则以户为单位进行调查,既调查家庭户,也调查集体户;既包括城镇人口,也包括农村人口。社区调查则仅调查被抽中的调查小区所在村委会的情况。调查内容:按人填报的项目,包括个人的基本情况、就业和失业情况、婚姻状况、妇女生育情况、出生和死亡情况等。按户填报的项目,包括本户住址编码、户别、本户总人口、上年10月1日以来出生人口和死亡人口、本户户籍人口中外出半年以上的人口、本户年内迁出人口等。按社区填报的项目,包括居住地类型,全村户数、人口数和出生、死亡人口,公共交通、教育、医疗、饮水、通讯等方面的条件,耕地面积和上年人均年纯收入等。调查方法:以全国为总体,省级单位为次总体,采用分层、多阶段、整群概率比例抽样方法。按照分配的样本量抽取样本单位,由调查员进行入户访问。2、城市住户调查调查目的:主要反映城市居民家庭人口、就业、收入、消费、储蓄、手存现金、商品需求和住房等变化情况,为党和国家研究制定劳动力就业、工资和奖金、社会福利、货币流通、商品生产和供应等政策提供依据;为确居民消费价格指数权数、确定贫困线的划分、计算社会商品购买力、国民收入分配比例及其他相关资料提供依据。—197— 调查内容:主要包括城市住户基本情况调查表、城市住户现金收支调查表、城市住户消费支出调查表、居民家庭成员基本情况一览表、城市住户居住情况表、城市住户不同收入水平家庭调查表、城市住户实物收入调查表、城市住户主要指标调查表等共八张。其主要内容包括:居民家庭人口和劳动就业状况,收入和现金支出状况,消费水平和消费结构状况,购买主要商品数量及变化情况,耐用消费品拥有量及变化情况,家庭食品消费及营养状况,家庭住房情况,实物收入状况,货币流动、储蓄、债权债务情况,各类居民家庭之间收入、消费差异情况。调查对象:在城市和县城关镇中按随机原则抽选的部分非农业居民家庭及其成员,包括单身户,但不包括集体户口中的单身者。调查方法:采取多阶段随机抽样方法确定调查城市(或县城)、街道、家庭户。为了使调查力量分布比较均匀,并适当照顾某些边远省份和少数民族地区,在随机抽样的原则上,又给部分省、自治区增加了个别调查点。住户调查采用样本户进行连续记帐方式,由记帐户对其家庭的各项支出逐笔记帐,然后由调查员定期整理,按月汇总。记帐户一般连续被调查三年,每年轮换三分之一。3、价格统计调查目的:为反映全国生产、流通,消费与投资等环节的价格变动趋势和变动幅度,分析价格变动对社会生产和居民生活的影响,满足各级政府制定政策和计划、进行经济管理的需要,根据《中华人民共和国统计法》的规定,特制定本统计报表制度。调查内容:包括农业生产资料价格调查、工业品出厂价格调查(生产者价格指数),原材料燃料动力购进价格调查、固定资产投资价格调查、居民消费价格调查、商品零售价格调查。调查对象:工业品出厂价格调查、原材料燃料动力购进价格调查、固定资产投资价格调查采用重点调查方法统计。工业品出厂价格调查全国选择部分城市调查1万多个企业,1000多个品种的工业品出厂价格,权数根据工业普查资料确定。固定资产投资价格调查范围包括抽中的各种经济类型的工业、建筑业企业及建设单位。—197— 调查方法:居民消费价格调查、商品零售价格调查在全国选择不同经济区域、以及有代表性的商品作为样本,对其市场价格进行经常性的调查,以样本推断总体。目前,我国抽选出的调查市、县226个。商品零售价格指数调查食品、饮料烟酒、服装鞋帽等十四类,300多种商品价格,计算权数根据全社会商品零售额统计确定;居民消费价格指数调查食品、衣着、服务项目等八大类,300多种商品和服务项目的价格,计算权数根据9万多户城乡居民家庭消费支出构成确定。工业品出厂价格指数、原材料燃料动力购进价格、居民消费价格指数、商品零售价格指数、农业生产资料价格指数报告频率为月报、年报,固定资产投资价格指数报告频率为季报。4、城镇劳动力调查调查目的:为国家及时掌握和了解我国城镇失业情况,研究制定劳动就业政策,加强调控提供依据。调查范围:为全国的城镇人口,具体指设区的市所辖的区,不设区的市所辖的街道以及不设区的市所辖镇的居委会和县辖镇的居委会范围内的15岁及15岁以上的人口。调查对象:采用按常住人口登记的原则对调查范围内被抽中的住户中15岁及15岁以上人口进行调查,调查以户为单位进行,既调查家庭户,也调查集体户。全国约抽取25万人。调查内容:被调查者在调查时点前一周即调查周的就业与失业情况。调查方法:是利用当年人口变动情况抽样调查所抽中样本中的城镇样本进行。以全国为总体,省级单位为次总体,采用分层、多阶段、整群概率比例抽样方法。对抽中的住户,由调查员进行入户访问。—197— 调查的组织方式:利用人口变动情况调查的样本进行跟踪调查,当年第三季度,即第一次调查与人口变动情况调查同时进行,将劳动力调查的主要调查项目并入人口变动情况调查表中收集有关劳动力的就业与失业情况,不再单独组织。以后几次调查对第一次调查的城镇样本进行跟踪,使用单独的城镇劳动力调查表进行调查。5、农村住户抽样调查调查目的:了解农村住户的生产、收入、消费、积累情况和社会活动情况,研究农民收入变化和生活质量变化情况,监测农民实现小康和摆脱贫困的进程,为各级党政领导制定农村经济政策和决策,为社会各界了解有关信息提供依据。调查范围:各省、自治区、直辖市和计划单列的省辖市的所有抽中的农村住户。主要内容包括:农村居民居住的社区发展情况、农村居民家庭基本情况、农村居民家庭人口基本情况和农村居民家庭现金收支、实物收支情况调查等。调查制度报告期别分为年报和定期报表。农村居民现金收支和主要农产品出售情况为定期报表,其余为年报。报表在国家农村住户调查网点中进行。农村居民的现金收支和实物收支情况通过农村住户记帐取得资料,其余调查内容采用年底对调查户一次性访问调查方式取得资料。6、农产量抽样调查《农产量抽样调查制度》是关于各省、自治区、直辖市农村社会经济调查队向国家统计局上报粮食等主要农作物各季播种面积、实测产量等统计调查数据的统一规定和具体要求。制度的主要内容:全年实测粮食产量,全年分品种粮食产量,畜牧业生产情况,农作物播种面积、种植安排,粮食预测,农用生产资料准备情况,粮棉生产情况等。—197— 各省、自治区、直辖市农村社会经济调查队负责按照国家统计局《农村抽样调查网点抽选方案(试行)》和《农产量抽样调查技术操作规程(试行)》,组织国家抽样调查县农调队抽选确定调查网点,审核、汇总基层上报的样本资料。各省、自治区、直辖市农村社会经济调查队根据样本资料汇总、整理,并按简单算术平均法推算全省数据,推算结果不得修改,并按规定日期报送国家统计局农调总队。7、农村固定资产投资抽样调查调查目的:改革开放以来,随着农村社会经济的全面发展,农村固定资产投资占全社会固定资产投资的比重也日益提高。农村固定资产投资统计调查数据的准确与否,直接影响着国民经济核算的质量和对宏观经济形势的趋势判断。调查范围:以县城关镇为界(不包括城关镇),城关镇以下的属于农村调查。在此范围内,大中型工矿企业、县级直属单位所属的企业和单位不属于农村调查的对象。乡镇以下按照所在地原则进行统计调查,做到不重复,不遗漏。具体划分为三级:一是乡政府所在地或镇区所在地范围内调查乡(镇)级的非农户投资单位;二是调查村范围内调查村组级非农户投资单位;三是农户投资从住户调查资料中取得,农户建房投资在农村住户调查村调查所有建房户。调查网点:调查乡和村在新抽选的农村固定资产投资调查网点上进行。固定资产价值统计标准:根据农村固定资产调查的现实情况,本方案农村固定资产价值统计的标准仍为:非农户固定资产价值统计标准为200元;农户固定资产价值统计标准为50元。调查对象:分为三大类:第一类为企业单位,第二类为乡镇行政事业单位及社会群众团体,第三类为农户固定资产投资情况调查,根据住户调查资料整理取得。调查内容:本方案的调查内容包括季报和年报。年报内容包括非农户固定资产调查基层表及综合表、农户固定资产调查表及调查村农户建房投资情况调查表。—197— 调查方法:年报采用调查人员进入调查单位进行访问,或从固定资产台帐或会计报表中取得调查数据。8、企业调查统计报表为了解全国企业生产经营活动的基本情况,观察和反映市场经济运行趋势,为国家制定经济政策、进行经济管理和宏观调控提供依据,企业调查队实施四套制度:规模以下工业抽样调查制度,企业集团统计报表制度,重点企业建立现代企业制度跟踪监测统计报表制度,企业景气调查制度。(1)规模以下工业抽样调查调查目的:反映规模以下工业的基本总量,为国民经济核算提供基础数据。调查范围:年产品销售收入500万元以下的非国有工业企业和全部个体经营工业单位。调查内容:包括500万元以下的非国有工业企业的基本情况,如:企业详细名称、地址、企业法人代码、登记注册类型、人员及生产经营状况等;个体经营工业单位的基本情况、人员及生产经营状况等。调查方式:采用抽样调查方法。根据国民经济核算要求,将规模以下工业总体划分成两个子总体,即年销售收入500万元以下的非国有工业企业和全部个体经营工业单位。对调查总体中有企业名录库的部分采用目录抽样,没有企业名录库的部分采用整群抽样。调查频率:调查制度分为年报和定期报表。(2)企业集团报表制度调查目的:全面反映企业集团发展情况,为国家组织与指导企业集团工作提供科学依据与咨询建议,满足国家宏观管理需要。统计范围:1.由国务院批准的国家试点企业集团;2.由国务院主管部门批准的企业集团;3.由省、自治区、直辖市人民政府批准的企业集团。4.中央企业工作委员会管理的企业集团;5.年营业收入和资产总计均在5亿元以上的其他各类企业集团。—197— 企业集团内部统计范围包括企业集团的母公司、在中国境内和境外的全资子公司、绝对控股子公司和相对控股子公司。调查内容:包括统计报表和调查问卷两部分。统计报表内容分为五类:一是反映企业集团概况和母公司情况的基本属性指标;二是反映企业集团财务状况的指标;三是反映企业集团劳动工资的指标;四是反映特定企业生产经营活动的业务指标;五是反映企业集团成员企业基本情况的主要指标。调查问卷的内容主要是反映企业集团不能用统计指标量化的改革和发展情况与问题。调查频率:企业集团统计报表制度分为年报和半年报。(3)重点企业建立现代企业制度跟踪监测统计报表制度调查目的:系统反映和深入研究我国重点企业建立现代企业制度的发展情况。统计范围:1.国家重点企业;2.中央企业工作委员会管理的企业;3.各省、自治区、直辖市人民政府及主管部门确定的重点企业;4.国务院确定的建立现代企业制度原百户试点企业;5.各省、自治区、直辖市人民政府及主管部门确定的建立现代企业制度原试点企业;6.国家试点企业集团的母公司(即核心企业)。调查内容:包括统计报表和调查问卷两部分。统计报表的内容分为四类:一是反映企业概况的基本属性指标;二是反映企业财务状况的指标;三是反映企业劳动工资的指标;四是反映企业生产经营活动的业务指标。调查问卷的内容主要是反映企业改革与建立现代企业制度的有关情况和问题。调查频率:重点企业建立现代企业制度跟踪监测统计报表制度分为年报和半年报。(4)企业景气调查调查目的:编制景气指数;及时、准确反映宏观经济运行和企业生产经营状况,为各级党政领导宏观管理和决策提供参考依据;及时反映企业的要求和建议,为企业生产经营服务。—197— 调查范围:包括工业,建筑业,交通运输、仓储及邮电通信业,批发和零售贸易、餐饮业,房地产业,社会服务业。调查对象:上述调查范围内被抽中的法人企业及其负责人以及依照法人单位进行统计的产业活动单位及其负责人。调查内容:1.企业基本情况,包括法人单位名称、法人单位代码、法定代表人、联系电话、详细地址、企业规模、所在行业代码、上年主营业务收入等;2.企业家对本行业景气状况的判断与预计;3.企业家对企业生产经营景气状况的判断与预计;4.企业家对企业生产经营问题的判断与建议。调查方式:采用抽样调查方法。各地区按各行业增加值占我国GDP的比重分配样本量。调查样本选取采用重点与抽样选取结合的方法,各地区对各行业特大型、大型企业及上市公司全部调查,从小型企业中抽取10%,其余样本从中型企业中抽取。附:规模以下工业抽样调查设计方案一、调查总体划分1.规模以下工业总体划分为两个子总体,即年产品销售收入500万元以下的非国有工业企业(以下简称企业子总体)和全部个体经营工业单位(以下简称个体工业子总体)。2.以全国为总体,按照国民经济行业分类将企业子总体划分成39个行业大类子总体。二、基本抽样方法企业子总体中有企业名录的部分采用目录抽样,没有企业名录的企业和个体工业子总体采用整群抽样方法。(一)一阶段目录抽样。用于目录企业部分。根据各省企业名录库直接抽取样本企业。(二)一阶段整群抽样。用于个体经营工业单位和未包括在企业名录库中的非目录企业部分。在省一级直接抽取整群单位———197— 村(居委会)作为样本,对整群样本内部的个体工业单位和非目录企业进行调查。三、调查目标(一)估计全国和各省规模以下工业总体、企业子总体和个体工业子总体的指标总量;(二)在年报中,估计全国企业子总体分行业大类的指标总量。以下说明共分五个部分,第一部分为目录企业抽样设计;第二部分为个体工业一阶段整群抽样设计;第三部分为非目录企业抽样设计;第四部分为总体总量和方差估计。一至四部分适用于年报和1至5月份调查。第五部分为1至3月份和1至9月份部分样本调查实施意见。一、目录企业抽样设计本部分的应用范围是有名录的年产品销售收入500万元以下非国有工业企业,即企业子总体中的目录企业部分。(一)抽样框目录企业抽样框的范围包括全部有名录的年产品销售收入500万元以下的非国有工业企业,企业的年产品销售收入以上年年末数据为准。抽样框内容应包括企业的基本属性指标和基本价值量指标。具体包括:企业名称、企业法人代码、地址、行业分类、企业登记注册类型等基本属性指标,以及工业总产值或产品销售收入等基本价值量指标。(二)样本量的确定为了同时满足企业子总体以省为总体抽样精度的要求和以全国为总体分行业大类抽样精度的要求,由企业调查总队分别确定各省目录企业部分的最小样本量和样本的行业分布结构,分配给各省。(三)企业分层及样本量在各层之间的分配第一,按行业大类分层。首先,将目录企业抽样框按照行业大类分成39个行业层,然后,将6个特别小的行业层合并成两个行业层,即将“化学纤维制造业”和“废弃资源和废旧材料回收加工业”—197— 合并成“其他制造业”,将“石油和天然气开采业”、“其他采矿业”、“烟草制品业”和“燃气生产和供应业”合并成“其他行业”,最终划分成35个行业层。将已确定的样本量分配到各行业层中,若出现某些小行业层没有分配到样本,就将其合并到“其他行业层”中,如果“其他行业层”中没有样本,则在该层增加2到4个样本。第二,在行业层内部进一步分层。在完成按行业大类分层之后,如果分配给某行业层的样本量较大时,则需要在行业层内部进一步分层,以提高估计量的精度。进一步分层的限制条件是:每个最终层内至少包含4个以上样本。在行业层内部进一步分层:(1)按照企业规模不等概率分层。将行业层内的全部企业按企业规模——工业总产值(产品销售收入)分层。各地可灵活掌握分层数量和分层界限,一般分2到3层即可。(2)按照规模或者其他信息进行等概率分层。在完成按行业、按规模不等概率分层后,分配给某些“行业×规模”层的样本量仍然较大,满足进一步分层条件时,可再按企业规模或者企业其他信息(如地区、企业登记注册类型等)进一步分层。此时,要求样本在这些层中等比例分配。(四)样本抽取采用“永久随机数”方法抽取样本。首先对每个抽样框单位赋予一个随机数,即“永久随机数”,然后在每一个最终层中将企业按照“永久随机数”从小到大排队,抽取个最小永久随机数的企业作为第层的样本。(五)区分有效样本企业和无效样本企业—197— 按照数据收集期间样本企业是否属于规模以下工业企业统计范围,将样本企业划分成有效样本企业和无效样本企业。有效样本企业是指在调查时点时仍然属于规模以下工业统计范围的样本单位,无效样本企业是指在调查时点时已经不属于规模以下工业统计范围的样本单位。对于有效样本企业,还应进一步根据样本企业是否填报了调查表,划分成有回答有效样本企业和无回答有效样本企业。对于无效样本企业,无论是否填报了调查表,都应将其调查指标赋值为“0”,基础权数不变,保留在数据文件中,供估计方差时使用。为了从未填报调查表的样本企业中区分出无回答有效样本企业和无效样本企业,需进一步了解样本企业未填报调查表的原因。企业未填报调查表的原因分为:1.营业但无回答;2.撤消,包括企业法人代码变更;3、被合并;4.停产;5.转产成为非工业企业,6.已纳入规模以上工业企业统计范围。在企业未填报调查表的原因中,第1类企业属于无回答有效样本企业,第2类至第6类企业属于无效样本企业。(六)加权1.基础权数。目录企业样本的基础权数是该样本企业被选概率的倒数。2.权数调整。根据检查是否存在重复企业、是否存在无回答有效样本企业、是否存在合并企业和分开企业等情况对相应的样本企业的权数进行调整,得到每个样本企业的最终权数。七、总量和方差估计1.总量估计量:式中:为样本企业的最终权数;是样本企业的指标的值。2.子域总量估计量:,式中,d为要研究的子域(如行业等),为样本企业的最终权数;是样本企业的指标的值。—197— 在实际估计总量和方差时,无论是省级还是国家级,都采用STATA软件进行。二、个体工业一阶段整群抽样设计本部分的应用范围是全部个体经营工业单位,即个体工业子总体。(一)抽样框个体工业一阶段整群抽样框包括全省范围内所有的村委会(居委会)(以下简称村),既包括有个体工业单位的村,也包括没有个体工业单位的村。抽样框的内容包括:村名称、地址代码、村内个体工业单位数和营业收入等信息,对于没有个体工业单位的村来说,个体工业单位数和营业收入为“0”。(二)划分虚拟村为了减少调查工作量,可将具有较多个体工业单位的村,分成若干个“虚拟村”,分成多少个“虚拟村”,由现场调查时所能承担的工作量决定。各地可结合本地实际情况确定划分“虚拟村”的个体工业单位数量界限。在完成“虚拟村”划分操作之后,抽样框的组成单位就不是实际意义上的村了,为了便于区别,以下称之为初级抽样单位(简称PSU)。如果抽中了某个“虚拟村”作为样本,在实际调查时,应先将该“虚拟村”所在的行政村中所有的个体工业单位列出名单,按照随机原则从名单中抽出相应数量的个体工业单位作为“虚拟村”的组成单位,并对这些被选中的个体工业单位进行调查,收集调查资料。(三)确定样本量各省根据总队分配的企业样本量和总体总量指标精度要求,计算样本量。(四)分层及样本在各层之间的分配1、抽样框中含有规模信息的地区将全部PSU按照规模———197— 个体营业收入分层。各地可灵活掌握分层数量,采用累计平方根法确定分层界限。按照规模较大层的抽样比较大的原则进行样本分配。2、各地区可视实际情况还可按地区或区域进行分层。(五)抽取样本采用“永久随机数”方法抽取样本。首先对抽样框中每个单位赋予一个随机数,然后在每一个最终层中将PSU按照随机数大小排队,抽取个最小永久随机数的PSU作为第层的样本。(六)加权1、基础权数。样本PSU的基础权数是该样本PSU的被选概率的倒数,个体工业单位的基础权数为所在的样本PSU的基础权数。2、权数调整。根据检查是否存在重复PSU、是否存在无回答样本PSU、是否存在无回答个体工业单位、是否存在合并PSU和分开PSU等情况,对相应的个体工业单位的权数进行调整,得到每个个体工业单位的最终权数。(七)总量和方差估计量总量估计量为。式中,为个体工业单位的最终权数;是个体工业单位的指标的值。估计总量和方差采用STATA软件进行。三、非目录企业抽样设计企业名录库中遗漏的企业和未包括的新增企业称为非目录企业。(一)抽样方法对非目录企业采用一阶段整群抽样方法。利用个体工业一阶段整群抽样的样本,对整群样本范围内的规模以下工业企业进行核查,确认非目录企业样本,然后对其进行调查,再按照个体工业一阶段整群抽样的方法进行推算。(二)确认非目录企业样本—197— 使用《目录企业核对表》(见参考表式)对整群样本范围内的目录企业抽样框中实际存在的企业进行核对,找出新增和被遗漏的企业。首先,由省企业调查队提供整群样本范围内的目录企业抽样框中实际存在的企业名单,由样本村调查员根据该名单,对本村规模以下工业企业进行核对,找出新增和遗漏企业,并将名单填在《目录企业核对表》中的“建立抽样框后新增或被遗漏企业”栏。“在目录企业抽样框中但地址码不正确”一栏不填,然后,通过地市企业调查队上报到省企业调查队。第二,由省企业调查队将调查员填报的新增和被遗漏企业与目录企业抽样框再次进行核对,剔除目录企业抽样框中已经存在的重复企业。对于核查出来的在目录企业抽样框中已经实际存在的企业,在《目录企业核对表》中“在目录企业框中但原地址码不正确”一栏上做标记。第三,确认非目录企业样本。在样本村调查员填报的新增或被遗漏企业基础上,剔除“在目录企业框中但原地址码不正确”的企业,得到非目录企业样本。(三)加权1、基础权数。非目录企业的基础权数等于所在样本PSU的基础权数。2、权数调整。根据检查是否存在重复样本PSU、是否存在无回答样本PSU、是否存在无回答非目录企业、是否存在合并PSU和分开PSU等情况,对相应的非目录企业样本的权数进行调整,得到每个非目录企业样本的最终权数。(四)总量和方差估计总量估计量为。式中,为非目录企业的最终权数;是非目录企业的指标的值。估计总量和方差都采用STATA进行。四、总体总量和方差估计—197— (一)企业子总体总量和方差估计1、总量估计量:式中,表示目录企业的总量估计量,表示非目录企业的总量估计量。2、的方差估计量:(二)规模以下工业总体总量和方差估计1.总量估计量:式中,表示企业子总体的总量估计量,表示个体工业子总体的总量估计量,表示目录企业的总量估计量,表示非目录企业的总量估计量。2.的方差估计量在估计规模以下工业总体总量的方差时,由于个体工业单位和非目录企业的样本是来源于同一个整群样本,因此需要将个体工业单位和非目录企业作为一个整体,用一阶段整群抽样的方差估计量公式,估计个体工业单位和非目录企业的方差,则的方差估计量为:3.的最大相对误差估计量—197— 式中:。估计总量和方差采用STATA进行。五、1至3月份和1至9月份部分样本调查实施意见(一)样本量的确定原则1、部分样本调查只满足以国家为总体,在95%的概率保证程度下工业总产值的最大相对误差控制在10%以内。2、要求各省的部分样本调查目录企业样本量不少于60个,个体工业一阶段整群样本(村、居委会、或“虚拟村”)不少于30个。(二)部分样本的选取方法及权数确定方法1、部分样本的抽选方法(1)目录企业抽样。①将目录企业年报样本按规模——工业总产值(或者产品销售收入)大小排队,并将其分成500万元及以上、400~500万元、300~400万元、200~300万元、100~200万元、100万元以下六层。②在各层中按等比例原则缩小样本量。计算公式为:,其中,为全部年报样本量,为第层的年报样本量,为部分样本量,为第层的部分样本量,其中,,。③在各层年报样本中按照“永久随机数”方法抽取部分样本,即将个年报样本按照永久随机数从小到大排队,抽取前个企业作为该层的部分样本企业。(2)个体工业一阶段整群抽样①在个体工业一阶段整群抽样年报样本基础上,按等比例原则在各规模层中同时缩小样本量。—197— ②各层部分样本量的计算公式为:,其中,为全部年报样本量,为第层的年报样本量,为部分样本量,为第层的部分样本量,其中,,。③在各层年报样本中按照“永久随机数”方法抽取部分样本,即将个年报样本按照永久随机数从小到大排队,抽取前个样本群作为该层的部分样本群。需要注意的是:为满足估计抽样误差的需要,部分样本在各层中不得少于2个。2、部分样本的权数(1)基础权数。第层的部分样本的基础权数等于第层的总体企业(单位)数与第层的部分样本企业(单位)数的商数,用公式表示为:第层的部分样本的基础权数=第层的总体企业(单位)数第层的部分样本企业(单位)数(2)最终权数。根据检查是否存在无回答样本企业,无回答样本群、无回答个体工业单位等情况,对相应的样本企业或者个体工业单位的基础权数进行调整,得到样本企业或者个体工业单位的最终权数。(三)部分样本的估算方法部分样本调查采取比率估计方法(分层联合比估计)进行总量及其方差估计。以部分样本调查得到的指标值为研究变量,以年报或1至5月份调查的指标值为辅助变量。1、企业子总体(1)估计目录企业部分的联合比估计量,再用年报或1至5月份调查的企业子总体总量估计量作为辅助变量估计部分样本调查的企业子总体总量估计量。—197— ①估计目录企业部分的联合比估计量,计算公式为:②估计企业子总体总量估计量,计算公式为:(2)用Stata软件估计的方差估计量()。式中,代表层(1,2,…,6);为样本企业编号,表示第个样本企业;为第层中的部分样本企业数量;为第层第个样本企业的最终权数;为第层第个样本企业的部分样本调查指标值;为第层第个样本企业的年报或1至5月份调查指标值;为年报或1至5月份调查的企业子总体总量指标估计值。2、个体工业子总体(1)总量的估算方法①估计个体工业子总体的联合比估计量,计算公式为:②估计个体工业子总体的总量估计量,计算公式为:(2)用Stata软件估计的方差估计量()。式中,代表层(1,2,…,),为规模层总数;为样本群编号(1,2,…,),表示第个样本群,为第层中的部分样本群数量;为样本群内个体工业单位编号,表示第—197— 个个体工业单位;为第层第个样本群第个个体工业单位的最终权数;为第层第个样本群第个个体工业单位的部分样本调查指标值;为第层第个样本群第个个体工业单位的年报或1至5月份调查指标值;为年报或1至5月份调查的个体工业子总体总量指标估计值。3、规模以下工业总体(1)总量估计量(2)的方差估计量为:(3)的最大相对误差估计量为:式中:。—197—

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭