SPSS入门讲义.ppt

SPSS入门讲义.ppt

ID:48909768

大小:832.50 KB

页数:111页

时间:2020-02-01

上传者:qwe189537
SPSS入门讲义.ppt_第1页
SPSS入门讲义.ppt_第2页
SPSS入门讲义.ppt_第3页
SPSS入门讲义.ppt_第4页
SPSS入门讲义.ppt_第5页
资源描述:

《SPSS入门讲义.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

StatisticalProgramforSocialSciencesSPSSforWindows 2006年9月陕西师范大学国际商学院1简介SPSS是StatisticalProgramforSocialSciences的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statistica)。我们现在使用的是SPSSforWindows13.0版。 2006年9月陕西师范大学国际商学院第一章SPSS初步--数据分析实例详解1.1数据的输入和保存1.1.1SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.2数据的预分析1.2.1数据的简单描述1.2.2绘制直方图1.3按题目要求进行统计分析1.4保存和导出分析结果1.4.1保存文件1.4.2导出分析结果以SPSS10.0版1.5打开其他文件格式1.5.1直接打开1.5.2使用数据库查询打开1.5.3使用文本导入向导读入文本文件1.6编辑数据文件1.6.1定义新变量1.6.2数据录入技巧1.7进一步整理数据文件--Data菜单1.7.1用于数据管理的菜单项1.7.2正交设计菜单项 2006年9月陕西师范大学国际商学院例1.1某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下,问该地急性克山病患者与健康人的血磷值是否不同?患者:0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87 2006年9月陕西师范大学国际商学院让我们把要做的事情理理顺:首先要做的肯定是打开计算机(废话),然后进入Windows,在进入SPSS后,具体工作流程如下:将数据输入SPSS,并存盘以防断电。进行必要的预分析(分布图、均数标准差的描述等),以确定应采用的检验方法。按题目要求进行统计分析。保存和导出分析结果。下面就按这几步依次讲解。 2006年9月陕西师范大学国际商学院§1.1数据的输入和保存1.1.1SPSS的界面 2006年9月陕西师范大学国际商学院1.1.2定义变量该资料是定量资料,设计为成组设计,因此我们需要建立两个变量,一个变量代表血磷值,习惯上取名为X,另一个变量代表观察对象是健康人还是克山病人,习惯上取名为GROUP。选择菜单Data==>InsertVariable。点击VariableView,将变量名改为GROUP和X。现在,第一、第二列的名称均为深色显示,表明这两列已经被定义为变量,其余各列的名称仍为灰色的“var”,表示尚未使用。同样地,各行的标号也为灰色,表明现在还未输入过数据,即该数据集内没有记录。 2006年9月陕西师范大学国际商学院1.1.3输入数据在DataView中输入相应的数据,一个单元格输入一个数据,Group中输入1代表患者,2代表健康人。 2006年9月陕西师范大学国际商学院1.1.4保存数据选择菜单File==>Save,由于该数据从来没有被保存过,所以弹出Saveas对话框 2006年9月陕西师范大学国际商学院§1.2数据的预分析1.2.1数据的简单描述首先我们需要知道数据的基本情况,如均数、标准差等。选择Analyze==>DescriptiveStatistics==>Descriptives菜单,系统弹出描述对话框如下: 2006年9月陕西师范大学国际商学院该对话框可分为左右两大部分,左侧为所有可用的侯选变量列表,右侧为选入变量列表。我们只需要描述X,用鼠标选中X,单击中间的,变量X的标签就会移入右侧,注意这时OK按钮变黑,表明已经可以进行分析了,单击它,系统会弹出一个新的界面如下所示:该窗口上方的名称为SPSSViewer,即(结果)浏览窗口,整个的结构和资源管理器类似,左侧为导航栏,右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到,24个数据总的均数为1.2846,标准差为0.4687。 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院我们以上的做法对吗?当然有问题!光看总的描述是不够的,还应当看看分组的描述情况。这里要用到文件分割功能,请切换回数据管理窗口,选择Data==>SplitFile菜单,系统弹出文件分割对话框如下:选择单选按钮Organizeoutputbygroups,将变量GROUP选入右侧的选入变量框,单击OK钮,此时界面不会有任何改变,但请再做一次数据描述,你就可以看到现在数据是分Group=1和Group=2两种情况在描述了!从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。如果定义了文件分割,则它会在以后的所有统计分析中起作用,直到你重新定义文件分割方式为止。 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院1.2.2绘制直方图统计指标只能给出数据的大致情况,没有直方图那样直观,我们就来画个直方图瞧瞧!选择Graphs==>Histogram,系统会弹出绘制直方图对话框如下: 2006年9月陕西师范大学国际商学院将变量X选入Variable选择框内,单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图: 2006年9月陕西师范大学国际商学院两组的数据没有特别偏的分布,也没有十分突出的离群值,因此无须变换,可以直接采用参数分析方法来分析。综合设计类型,最终确定采用成组设计两样本均数比较的t检验来分析。最后,我们还要取消变量分割,免得它影响以后的统计分析,再次调出变量分割对话框,选择单选按钮中的“Analyzeallcases,donotcreatgroup”,单击OK按钮就可以了。 2006年9月陕西师范大学国际商学院§1.3按题目要求进行统计分析下面我们要用SPSS来做成组设计两样本均数比较的t检验,选择Analyze==>CompareMeans==>Independent-SamplesTtest,系统弹出两样本t检验对话框如下: 2006年9月陕西师范大学国际商学院将变量X选入test框内,变量group选入grouping框内,注意这时下面的DefineGroups按钮变黑,表示该按钮可用,单击它,系统弹出比较组定义对话框如右图所示:该对话框用于定义是哪两组相比,在两个group框内分别输入1和2,表明是变量group取值为1和2的两组相比。然后单击Continue按钮,再单击OK按钮,系统经过计算后会弹出结果浏览窗口,首先给出的是两组的基本情况描述,如样本量、均数等(糟糕,刚才的半天工夫白费了),然后是t检验的结果如下: 2006年9月陕西师范大学国际商学院IndependentSamplesTestIndependentSamplesTest 2006年9月陕西师范大学国际商学院可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的检验结果为F=0.074,p=0.788,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t=2.568,ν=21,p=0.018。从而最终的统计结论为按α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。 2006年9月陕西师范大学国际商学院§1.4保存和导出分析结果1.4.1保存结果文件显然,最方便快捷、最符合信息时代特征的就是第三种方法,在结果浏览窗口中(注意:一定要在结果浏览窗口中)选择菜单File==>Save,由于该结果也从来没有被保存过,所以弹出和前面保存数据时极为相似的一个Saveas对话框,和前面相比,他唯一的区别就是文件的保存类型只有ViewFiles(*.spo)一种。好,闲言少叙,在文件名框中键入“Li1_1”并回车,该结果文件就会按文件名Li1_1.spo被存储。 2006年9月陕西师范大学国际商学院1.4.2导出分析结果文件倒是保存了,但问题还没有完全解决:我们从来写文章什么的都用的是文字处理软件,尤其是WORD,可WORD不能直接读取SPO格式的文件,怎么办呢?没关系,SPSS提供了将结果导出为纯文本格式或网页格式的功能,在结果浏览窗口中选择菜单File==>Export,系统会弹出ExprotOutput对话框如下 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院最上方的Export下拉式列表可以选择输出的内容,可以为含图表的输出文档、无图表的输出文档和只有统计图表三种;中部的ExprotFile对话框则填入输出的目标文件名;左下方的ExportWhat单选框可以选择输出结果的哪些部分,可以是所有结果、所有可见结果或只输出选择的结果,一般选输出所有可见结果;右下方的输出文件类型下拉式列表已被我打开,可见里面有网页格式和纯文本格式两种,在一切按所需选择完毕后按OK钮,则结果文件就会输出为你想要的类型。好,到这里,就象我们刚开始所说的一样,你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头,更进一步”,将从下一章开始详细介绍SPSS各个模块的精确用法,使大家能尽快的从SPSS新手向SPSS高手过度。 2006年9月陕西师范大学国际商学院§1.5打开其他格式的数据文件1.5.1直接打开SPSS现在可以直接读入许多格式的数据文件,其中就包括EXCEL各个版本的数据文件。选择菜单File==>Open==>Data或直接单击快捷工具栏上的“”按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是: 2006年9月陕西师范大学国际商学院1.5.2使用数据库查询打开SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件(废话),比如FoxPro3.0以上版本的*.dbf文件就不能直接打开(有兴趣的话你可以试试)。为此,SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询。实际上,SPSS在这里使用的是一种叫ODBC(OpenDatabaseCapture)的数据接口,该接口被大多数数据库软件和办公软件(如MSOffice)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。由于SPSS10.0可以直接打开EXCEL所有系列的数据文件,因此数据库查询接口的用处不是很大。但是,在9.0及以前的版本中,该查询仍是直接打开EXCEL95、97及2000数据文件的唯一办法。 2006年9月陕西师范大学国际商学院ODBC数据引擎是独立与各种应用软件,直接安装到Windows系统中的,因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好,大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MSOffice)。不过有一点要提醒大家,许多机器的OBDC数据引擎安装有问题(尤其是D版),在SPSS中使用它往往要死机。选择菜单File==>OpenDatabase==>NewQuery,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。 2006年9月陕西师范大学国际商学院1.5.3使用文本导入向导读入文本文件选择菜单File==>ReadTextData,系统就会弹出OpenFile对话框,对!和前面的情况完全一样,只是文件类型自动跳到了Text(*.txt)。实际上,该功能在SPSS中已被整合到了OpenFile对话框中之所以在菜单上保留该条目有两个原因:1.读入纯文本的情况非常普遍,放在这里更加醒目;2.为了和SPSS老版本的使用上保持兼容。例2.1现有一数据文件以纯文本的形式存为“c:Li2_1.txt”,且第一行为变量名,请将其读入SPSS。解:在OpenFile对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下: 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院§1.6编辑数据文件在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示:Data菜单项Transform菜单项 2006年9月陕西师范大学国际商学院1.6.1定义新变量直接定义新变量大多数情况下我们需要从头定义变量,在SPSS10.0中,定义变量只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。如Li1_1.sav的变量定义如下所示: 2006年9月陕西师范大学国际商学院以变量x为例:变量名为x,类型为Numeric,宽度为4,小数位数2位(因小数点还要占一位,故整数位只有一位),变量标签位为“血磷值”。右侧在图中未能看到的依次为Values,用于定义具体变量值的标签;Missing,用于定义变量缺失值;Colomns,定义显示列宽;Align,定义显示对齐方式;Measure,定义变量类型是连续、有序分类还是无序分类。使用该窗口,我们可以一次定义许多新变量,不会象老版本那样一个一个的定义了。 2006年9月陕西师范大学国际商学院标签和老版本不同,现在变量标签和变量值标签被分开设置,变量标签就在Label框中直接输入,变量值标签则在它右侧的Value框定义。以group为例,单击Value框右半部的省略号,会弹出变量值标签对话框如右:上部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“1”和“克山病患者”,此时下方的Add钮变黑,单击它,该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“健康人”,最后按OK,变量值标签就设置完成。此时你做任何分析,在结果中都有相应的标签出现。如果你现在就想看效果,切换回DataView界面,然后选择菜单View==>ValueLabels,怎么样,看到了吗? 2006年9月陕西师范大学国际商学院缺失值单击missing框右侧的省略号,会弹出缺失值对话框如下:界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值” 2006年9月陕西师范大学国际商学院ComputeVariable对话框这主要用于对原变量通过一定的计算,产生新变量的方法。例3.2在li1_1.sav中建立新变量temp,令其值当血磷值大于1时为2,否则为1。首先给变量temp均赋值为1,然后将血磷值大于1的记录其temp变量值改为2即可。第一步:选择菜单Transform==>Compute,弹出ComputeVariable对话框如下: 2006年9月陕西师范大学国际商学院左上角为需要计算的变量名,在其中键入“temp”,此时“Type&Lable”按钮就会变黑,喜欢精确的朋友可以在这里对temp进行详细的定义;左下方为候选变量列表,现在还用不着;中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;软键盘右侧为函数窗口,可以在这里找到并使用所需的SPSS函数;这次也用不到。好,现在“OK”按钮已经变黑,单击他,系统就会自动生成一个新变量temp,并且取值均为1。 2006年9月陕西师范大学国际商学院第二步,再次选择菜单Transform==>Compute,系统也再次弹出这个对话框,将数值表达式窗口中的1改为2,然后单击中下部的“If”按钮,系统弹出记录选择对话框如下: 2006年9月陕西师范大学国际商学院Count对话框Count对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口),比如我们想看看有哪些记录的血磷值在2~3之间,选择菜单Transform==>Count,系统弹出Count对话框如下: 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院TargetVariable框中用于指定记录变量值是否出现的变量名,在这里输入temp2;选中血磷值(x),将其选入Variables窗口,此时“DefineValues”按钮变黑,单击它,系统弹出变量值定义窗口如下: 2006年9月陕西师范大学国际商学院左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况:选择Range,在through两侧分别键入2、3,然后单击已变黑的“Add”按钮,“2thru3”就会被加入“ValuestoCount”框内。然后单击“Continue”,再单击Count对话框的“OK”,可以看到系统自动生成变量temp2,其中10、11号记录因血磷值介于2和3之间,temp2取值为1,其余的记录temp2取值均为0。 2006年9月陕西师范大学国际商学院Recode对话框Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。例2.3在Li1_1.sav中生成新变量temp3,当血磷值小于1时取值为0,1~2时取值为10,大于2时取值为20。解:选择菜单Transform==>Record==>IntoDifferentVariables, 2006年9月陕西师范大学国际商学院1、OutputVariable框:选入x2、OutputVariableName框:键入temp3:单击Change钮3、选中x->temp3:单击OldandNewValues钮:4、Range:Lowestthrough单选钮:键入1:NewValueValue单选钮:键入0:单击Add钮5、Range:through单选钮:两侧分别键入1、2:NewValueValue单选钮:键入10:单击Add钮6、Range:Allothervalues单选钮:NewValueValue单选钮:键入20:单击Add钮7、单击Continue8、单击OK步骤: 2006年9月陕西师范大学国际商学院CategorizeVariables对话框CategorizeVariables对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单,许多东西都是我们所熟悉的,唯一特别的是右下方的numberofcategories框,用于输入变量的等级数,默认为4,比如我们希望将血磷值按大小分成5个等级,先将血磷值选入CreateCategories框,然后将下面的4改为5,单击OK,就会看到系统产生了一个新变量nx(即numberofx之意),其取值就对应了血磷值相应的5个等级(1~5)。重复一下,具体操作步骤为:1、reateCategories框:选入x2、Numberofcategories框:53、OK 2006年9月陕西师范大学国际商学院RankCases对话框例2.4请分组计算血磷值的秩和。解:选择菜单Transform==>RankCases,弹出RankCases对话框 2006年9月陕西师范大学国际商学院将血磷值选入Variable框,分组变量选入By框,单击OK即可。系统会建立一个新变量rx(即原变量名前加r表示Rank之意),其取值为x分组的秩次。解释一下RankCases对话框的其他几个零件:左下角的AssignRank1to框架用于选择将秩次1赋给最小值还是最大值;中下部的Displaysummarytables复选框用于确定是否在结果窗口内输出结果报表;RankTypes钮用于定义秩次类型,有Rank(秩分数)、Savage评分(新变量值按指数分布)、Fractionalrank(新变量值是秩分数除以非缺失值观测量的权重之和)、Fractionalrank%(新变量值是秩分数除以非缺失值观测量数乘100)、Sumofcaseweights(新变量值是各观测量的权重之和)、Ntiles(新变量值是按所选变量的百分位数分组的组序号),默认值为Rank。单击More按钮,还会有更多的设置,这里就不再讲了。 2006年9月陕西师范大学国际商学院AutomaticRecord对话框CreateTimeSeries对话框ReplaceMissingValue对话框该对话框用于按原变量值的大小生成新变量,变量值就是原值的大小次序,功能和RankCases对话框重复(等价于相同值观测量当作一个记录处理的情况)。用于自动生成时间序列变量用于填充缺失值,结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延,默认值为序列的均数。 2006年9月陕西师范大学国际商学院1.6.2数据录入技巧连续多个相同值的输入如前面group变量有连续多个1,如果直接输入,可以在第一格内输入1并回车,然后回到刚才的单元格并单击右键,选择copy,最后用拖放方式选中所有应输入1的单元格,单击右键并选择paste,所有选中的单元格就会都被刚才拷贝的1填充。将EXCEL数据直接引入SPSSExcel已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入SPSS:先在EXCEL中选中所有的数据(不包括变量名),然后选择拷贝命令;然后切换到SPSS,最好使行1列1单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入SPSS,再定义相应的变量即可。 2006年9月陕西师范大学国际商学院§1.7进一步整理数据文件--Data菜单在许多情况下,我们需要先对数据进行一些整理(如分组、合并、加权等)才能将其用于最终的统计分析。这些功能基本上都集中在Data菜单项中,下面我们就对这些对话框做逐一介绍。 2006年9月陕西师范大学国际商学院1.7.1用于数据管理的菜单项1.7.1SortCases对话框主要用于对数据排序。 2006年9月陕西师范大学国际商学院例2.5对数据集li1_1.sav按group升序,x降序的次序排列。解:选择菜单Data==>SortCases,系统弹出SortCases对话框,该对话框并不复杂,其中比较特殊的是下方的SortOrder单选钮,有升序和降序两种选择。请注意,该单选钮是和上方的SortBy框一起使用的,具体方法如下:确认升序单选钮被选择,将Group选入SortBy框;选择降序单选钮,将x选入SortBy框。请注意:group和x后面分别跟着Ascending和Descending,表明前者是按升序、后者按降序排列;由于Group在前,因此排序时以Group优先。 2006年9月陕西师范大学国际商学院Transepose对话框该对话框用于对数据进行行列转置,可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为case_lbl的字符变量中。该对话框也非常简单,左侧为候选变量框;右上方为Variable框,用于选入需要转置的变量,一般应选入除名称变量外的所有其他变量,如果有变量未选入,则转置时会被自动丢弃;右下方为NameVariable框,用于指定原数据文件中记录转置后变量名的字符变量,但不是必需的,此时系统会将新变量自动按var001、var002...的顺序命名。 2006年9月陕西师范大学国际商学院MergeFiles对话框用于合并数据文件,实际上包括了两个对话框,分别对应了两种合并方式:1.从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用AddCases对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data==>MergeFiles==>AddCases,系统首先弹出打开数据文件对话框,选中需要添加的数据文件并按OK,系统才弹出AddCases对话框,左侧显示的是新、老数据文件中不匹配的变量名,右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。右下方的Indicatecasesourceasvariable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击OK,该操作就完成了。 2006年9月陕西师范大学国际商学院实际上右侧显示的是将要包括在合并后数据集中的变量,如果有哪个你不需要,把它弄到左侧框中即可。2.从外部数据文件增加变量到当前数据文件,称为横向合并,用AddVariable对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data==>MergeFiles==>AddVariable对话框,系统同样先弹出打开数据文件对话框,单击OK后弹出和前面相似的AddVariable对话框。按需选择即可。 2006年9月陕西师范大学国际商学院Aggregate对话框用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院上图中各个零件的含义如下:BreakVariables框:用于选择分组变量;AggregateVariables框:用于选择被汇总的变量;Name&Label钮:用于定义新产生的汇总变量的名称和标签;Function钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个;SaveNumberofcasesinbreakgroupasvariable复选框:用于定义一个新变量以存储同组的记录数;Createnewdatafile单选钮:定义一个新文件以存储汇总的结果,右侧的File钮用于具体文件名的定义,默认文件名为AGGR.sav;Replaceworkingdatafile单选钮:用汇总的结果替换原来的数据。 2006年9月陕西师范大学国际商学院例2.6计算Li1_1.sav中两组的血磷值标准差。解:该题完全可以用更简单的方法完成,这里只是演示一下汇总对话框的用法。1、BreakVariables框:Group2、AggregateVariables框:x3、Function钮:(Standarddeviation单选钮:Continue钮)4、Replaceworkingdatafile单选钮:选中5、OK 2006年9月陕西师范大学国际商学院SplitFile对话框用于将数据文件分组进行处理,该对话框我们在第一章时已经使用过了,这里再介绍一下各个对话框元素的用途:Analyzeallcases单选框:和下面的两个单选框为一组,选中本框不拆分文件;Comparegroups单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较;Organizeoutputbygroups单选框:按所选变量拆分文件,各组分析结果单独放置;Groupsbasedon框:用于选择拆分数据文件的变量;Sortthefilebygroupingvariables单选框:将数据按所用的拆分变量排序;Fileisalreadysorted单选框:数据保持原状,不按所用的拆分变量排序。 2006年9月陕西师范大学国际商学院SelectCases对话框很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前200个数据进行分析以了解大概情况),这时使用SelectCases对话框可以大大简化工作。该对话框界面如下所示: 2006年9月陕西师范大学国际商学院 2006年9月陕西师范大学国际商学院其中主要的对话框元素为:Allcases单选钮:和下面的4个单选钮为一组,选中它则分析所有的记录;Ifconditionissatisfied单选钮:只分析满足条件的记录;If按钮:和If单选钮一起使用,单击后弹出If对话框;Randomsampleofcases单选钮:从原数据中按某种条件抽样;Sample按钮:和Random单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;Basedontimeorcaserange单选钮:基于记录序号来选择记录; 2006年9月陕西师范大学国际商学院Range按钮:和Based单选钮一起使用,用于输入记录序号范围;Usefiltervariable单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非0的记录将被选中,进入以后的分析;Filtered单选钮:和下面的Deleted单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;Deleted单选钮:未被选中的记录将被删除,一般不要使用。当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为filter_$的筛选指示变量,被选中的记录该变量取值为1,反之则为0。 2006年9月陕西师范大学国际商学院WeightCases对话框在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有100例,如果每一行就是一条记录,你就需要输入100条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到WeightCases对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。 2006年9月陕西师范大学国际商学院Data菜单中的其余对话框Definedates对话框:可以自动生成时间变量。InsertVariable命令:在当前列插入新变量。Insertcases命令:在当前行插入新记录。Gotocases对话框:到达指定记录号的记录,该命令在记录数极多时(1000条以上)非常有用。 2006年9月陕西师范大学国际商学院1.7.2正交设计菜单项正交设计不包含在SPSS/BASE模块中,因此由于解密范围的问题,有的盗版中不含该菜单项。在SPSS中可以直接进行正交设计,OrthogonalDesign子菜单项就是专门用于完成该任务的,具体做法用下面的例子说明如下: 2006年9月陕西师范大学国际商学院解:选择Data-->OrthogonalDesign-->generate,弹出的就是正交设计窗口,操作如下:1、Factorname框:输入A;单击ADD钮;2、确定变量A被选中,单击Definevalue钮;3、Value列:头三行分别输入1、2和3,代表变量A的三个水平;单击continue钮;4、Factorname框:输入B;单击ADD钮;5、确定变量B被选中,单击Definevalue钮;6、Value列:头两行分别输入1、2,代表变量B的两个水平;单击continue钮;7、单击OK例2.7做A、B两个因素的正交设计,A因素有三个水平,B因素有两个水平。 2006年9月陕西师范大学国际商学院在第7步定义完后,对话框应如下图所示: 2006年9月陕西师范大学国际商学院在其他没有用到的选择项中,各种LABELS当然适用于定义相应的各种标签的;DataFiles单选框组用来定义产生的数据文件是存为制定的文件名,还是直接替换当前工作文件;而DefineValue对话框中的Autofit框可以自动填充从1到你输入的那个数值这么多个水平的定义。这里我们直接替换当前工作文件,在这个自动产生的正交设计数据集中,前两个变量就是要分析的A和B,各个水平已经按正交设计的要求排列好了。后面的status_和card_变量是系统产生的LOG变量,可以不管它。现在你再建立一个结果变量,输入实验结果,就可以进行正交设计的分析了。 2006年9月陕西师范大学国际商学院附件:论统计软件中的数据录入格式统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。但是,在计算机已逐渐普及的今天,统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题--数据录入格式。简言之,我们平时往往用表格的形式来记录数据,这并无不妥。问题在于当进行统计分析时,如果我们直接将数据按平时记录的格式来进行分析,那就很可能不得其门而入--因为大多数统计软件对数据格式都有着特定的格式要求,下面我们就举一些常见的情况来解释这一问题。 2006年9月陕西师范大学国际商学院1.单组或多组数据平时我们多记录成"第1组、第2组、第3组..."等等,如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的t、F或秩和检验等。这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。 2006年9月陕西师范大学国际商学院②统计分析格式1,0.1 1,0.2 1,0.3 2,0.4 2,0.5 3,0.6 3,0.7 3,0.8 3,0.9表一①统计表格格式看出来区别了吗?统计分析格式中第一列为“分组变量”,指示所在的组号;第二列为原始数据。现在再回到SPSS等统计软件的菜单去,做one-wayANOVA(成组的方差分析)知道怎么选变量了吧! 2006年9月陕西师范大学国际商学院2.配伍组数据平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验等。见表二:表二①统计表格格式②统计分析格式1,1,0.1 1,2,0.2 2,1,0.3 2,2,0.4 3,1,0.5 3,2,0.6统计分析格式中第一列为“第一分组变量”,指示所在的组号;第二列为“第二分组变量”,指示在该组的序号,第三列为原始数据; 2006年9月陕西师范大学国际商学院3.单组成对数据变量名分别为:X、Y,要求样本含量相等。主要用于配对计量资料比较的t、秩和检验;直线回归与相关;曲线拟合等,格式见表三。表三①统计表格格式②统计分析格式0.1,0.40.2,0.50.3,0.6两种格式没有区别,但请注意,如果配对资料转用方差分析来处理,则相应的也要变换格式。 2006年9月陕西师范大学国际商学院4.多组成对数据主要用于协方差分析,格式见表四。表四①统计表格格式②统计分析格式1,0.1,0.31,0.2,0.42,0.5,0.82,0.6,0.92,0.7,1.0在统计分析格式中,第一列为对子组号,第二列与第三列分别为该组的对子X、Y。 2006年9月陕西师范大学国际商学院第二章SPSS功能介绍及其应用举例描述性统计分析--DescriptiveStatistics菜单均数间的比较--CompareMeans菜单一般线性模型――GeneralLinearModel菜单相关分析――Correlate菜单多元线性回归与曲线拟合――Regression菜单对数线性模型——Loglinear菜单聚类分析与判别分析——Classify菜单因子分析与对应分析——DataReduction菜单信度分析与多维尺度分析——Scale菜单非参数检验――NonparametricTests菜单Survival菜单第一节SPSS的主要分析工具——Analyze菜单 2006年9月陕西师范大学国际商学院1、描述性统计分析--DescriptiveStatistics菜单1.1Frequencies过程的特色是产生频数表1.2Descriptives过程进行一般性的统计描述;1.3Explore过程用于对数据概况不清时的探索性分析;1.4Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程: 2006年9月陕西师范大学国际商学院2、均数间的比较--CompareMeans菜单该菜单集中了几个用于计量资料均数间比较的过程。具体有:2.1Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。2.2One-SamplesTTest过程进行样本均数与已知总体均数的比较。2.3Independent-SamplesTTest过程进行两样本均数差别的比较,即通常所说的两组资料的t检验。2.4Paired-SamplesTTest过程进行配对资料的显著性检验,即配对t检验。2.5One-WayANOVA过程进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。 2006年9月陕西师范大学国际商学院3、一般线性模型――GeneralLinearModel菜单一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM菜单的用法,会使大家的统计分析能力有极大地提高。实际上一般线性模型包括的统计模型还不止这些,我这里举出来的只是从用SPSS作统计分析的角度而言的一些。 2006年9月陕西师范大学国际商学院好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看:3.1Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。3.2Multivariate子菜单:当结果变量(应变量)不止一个时,可用他来分析。3.3RepetedMeasures子菜单:顾名思义,重复测量的数据就要用他来分析;用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对。3.4VarianceComponents子菜单:用于作方差成份模型的(这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了)。 2006年9月陕西师范大学国际商学院4、相关分析――Correlate菜单在数据分析中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。SPSS的相关分析功能被集中在Analyze菜单的Correlate子菜单中,他一般包括以下三个过程: 2006年9月陕西师范大学国际商学院4.1Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。4.2Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。4.3Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。 2006年9月陕西师范大学国际商学院5、多元线性回归与曲线拟合――Regression菜单回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单,是SPSS提供的用于回归分析的工具:5.1Linear过程——调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。5.2CurveEstimation过程——CurveEstimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。 2006年9月陕西师范大学国际商学院5.3BinaryLogistic过程——所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。 2006年9月陕西师范大学国际商学院6、对数线性模型——Loglinear菜单对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。它是一种比较新型的分析方法,在分析高维列联表时优势尤为突出。由以下三个过程组成:6.1General过程——用于进行一般对数线性模型分析,主要用于证实性研究。此时研究人员只对某些特定效应感兴趣,即已经有关于模型的假设,此时就可以采用一般模型来检验这一假设是否正确、充分,它可以对总模型和各个参数给出详细的检验结果。对变量不分因变量自变量,在分析中一视同仁,最后在结果解释时才由研究人员来做出判断。6.2Logit过程——当研究人员已经有了一些线索,知道因变量自变量时,如果应变量为两分类,就可以用这个过程来分析。6.3ModelSelection过程——分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息,但是它要求研究人员心中已经有了一定的思路或线索,或只对某些特定效应项感兴趣,即已经有关于简约模型的假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是应变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。 2006年9月陕西师范大学国际商学院7、聚类分析与判别分析——Classify菜单聚类分析和判别分析都是将记录或变量分类的方法,所不同的是聚类分析是把没有分类信息的资料按相似程度归类,有一定探索性的味道;而类别分析则是从已知的分类情况中总规律,为以后判断新观测所属类别提供依据。Classify菜单提供如下三个过程:7.1K-meansCluster过程——对记录进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大于100,则有必要考虑是否使用快速聚类。7.2HierarchicalCluster过程——习惯上翻译成系统聚类法,该过程提供了全面而强大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参与系统聚类分析的变量不再像快速聚类一样限于连续性变量,它们可以是两分类或多分类变量。7.3Discriminant过程——提供了全面的类别分析功能,所用变量可一次进入,也可以使用逐步法筛选出最优类别方程。 2006年9月陕西师范大学国际商学院8、因子分析与对应分析——DataReduction菜单该方法主要目的都是浓缩数据,或称数据化简,即以最少的信息丢失为代价将众多的观测变量浓缩为少数几个因素,从而简化问题,或发现事物的内在联系。8.1Factor过程——提供因子分析/主成分分析方法,它们是最为常用的数据简化方法,用于考察多个定量变量间的内在结构,或者提取数据的主要信息。8.2CorrespondenceAnalysis过程——进行简单对应分析,该方法同样以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系,当各个变量的类别越多时,该方法的优势就越明显。8.3OptimalScaling过程——进行最优尺度分析,该方法的核心目的也是力图在低维度空间表述两个或多个变量之间的内在联系。所分析的变量以分类变量为主,但也可以为连续性变量。该方法实际上包括,但不仅仅限于对应分析方法。 2006年9月陕西师范大学国际商学院9、信度分析与多维尺度分析——Scale菜单在Scale菜单提供的几种统计方法都属于尺度分析的范畴,它们是探索研究事物间的相似性/不相似性的专用技术。具体来说,这些方法和用途是:9.1信度分析:用于评价问卷这种测量工具的稳定性或可靠性,具体来说就是用问卷对同一事物进行重复测量时,所得结果的一致性程度。ReliabilityAnalysis过程可以进行内在信度分析,即评价问卷中各个问题是否测量的是同一个概念。9.2多维尺度分析:用于反映多个研究事物间的相似(不相似)程度,通过适当的降维方法,将这种相似(不相似)程度在低维空间中用点与点之间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。这种方法在市场研究中应用得非常广泛。MultidimensionalScaling过程和MultidimensionalScaling(PROXSCAL)过程都是专门用于多维尺度分析的过程。 2006年9月陕西师范大学国际商学院10、非参数检验――NonparametricTests菜单作为二十一世纪统计理论的三大发展方向之一,非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较,虽然已有好几种方法可资利用,但由于在理论上仍存在争议,几种权威的统计软件(如SAS和SPSS)均没有提供这方面的方法。虽然这些洋统计软件没有提供两两比较的非参数方法,但国产的统计软件大都是提供了的(国情不同嘛),因此建议大家:如果真的要做这方面的非参数分析,不如直接用PEMS、SPLMWIN、NOSA等国产软件,免得用SPSS等只能做一半。在SPSS中,几乎所有的非参数分析方法都被放入了NonparametricTests菜单中,具体来讲有以下几种: 2006年9月陕西师范大学国际商学院Chi-squaretest:用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,我随便写的)。请注意该检验和我们一般所用的卡方不太一样,我们一般左的卡方要用crosstable菜单来完成,而不是这里。BinomialTest:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。RunsTest:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。One-SampleKolmogorov-SmirnovTest:采用柯尔莫诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。Two-Independent-SamplesTests:即成组设计的两样本均数比较的非参数检验。TestsforSeveralIndependentSamples:成组设计的多个样本均数比较的非参数检验,此处不提供两两比较方法。Two-Related-SamplesTests:配对设计两样本均数的非参数检验。TestsforSeveralRelatedSamples:配伍设计多个样本均数的非参数检验,此处同样不提供两两比较。 2006年9月陕西师范大学国际商学院11、生存分析——Survival菜单生存分析的主要研究内容:1、描述生存过程:研究人群生存状态的规律,如生存时间的分布的特点,计算某个时间点的生存率、生存率曲线的变动趋势等。这是人寿保险研究中的一项重要内容。2、生存过程的影响因素分析:比较不同亚人群的生存状况,进行两组或多组生存率的比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容,在临床医学中应用得非常广泛。SPSS提供了四个过程: 2006年9月陕西师范大学国际商学院11.1Lifetables过程:用于分析分组生存资料,求出不同组段时的生存率。或者当样本量较大时(如n>50),可以把资料按不同时间段分成几组,观察不同时间点的生存率。11.2Kaplan-Meier过程:用于样本含量较小时,不能给出特定时间点的生存率。这样就不用担心每个时间段内只有很少的几个观测,甚至没有观测的尴尬局面。11.3CoxRegression过程:用于拟合Cox比例风险模型,这是生存分析中最重要的一个分析方法,它的出现具有划时代的意义,是多因素生存分析方法中最为常用的一种。11.4Coxw/Time-DepCox过程:是Cox比例风险模型的进一步发展。当所研究的危险因素其取值随时间而不断变化,或者其作用强度随时间而不断变化时,Cox模型的适用条件就被违反,此时需要对模型加以修正,就必须用到这个过程了。 2006年9月陕西师范大学国际商学院第二节应用举例——主成分/因子分析多元分析处理的是多指标的问题。由于指标太多,使得分析的复杂性增加。观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。调用DataReduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。 2006年9月陕西师范大学国际商学院2.1Factor过程2.1.1模型简介因子分析和主成分分析是不同的两种手段,但分析过程极为相似,且它们在SPSS中都是采用Factor过程拟合。下面先给出其原理,然后介绍具有共同性的一些问题. 2006年9月陕西师范大学国际商学院主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,从而在不丢掉主要信息的前提下,避开了变量间共线性的问题,便于进一步分析。主成分分析不能被看成是研究的结果,而应继续采用其他多元统计方法以解决实际问题。在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合,比如有两个原始变量X1和X2,则一共提取出两个主成分如下:Z1=b11X1+b21X2Z2=b12X1+b22X2原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成分已包含了90%以上的信息,其他的可以忽略不计。提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。2.1.1.1主成分分析 2006年9月陕西师范大学国际商学院因子分析也是一种将多变量化简的技术,它可以被看成是主成分分析的推广。因子分析的目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性则较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。比如在市场调查中收集了食品的五项指标:味道,价格,风味,是否快餐食品,能量。经过因子分析后发现结果如下:x1=0.02z1+0.99z2+ε1x2=0.94z1-0.01z2+ε2x3=0.13z1+0.98z2+ε3x4=0.84z1+0.42z2+ε4x5=0.97z1-0.02z2+ε5x1~x5为原始变量,z1~z2为公因子。上式表明第一公因子主要影响价格、是否快餐食品,第二公因子则主要影响味道和风味。结合实际,前一公因子代表“价廉”,后一公因子代表“味美”。式中的ε代表特殊因子(注意并非普通意义上的残差),它只对当前变量有影响,表示该变量中独特的、不能被公因子所解释的特征。因子分析一般要求提取出的公因子有实际含义,如果分析中各因子难以找到合适的意义,则可以通过适当的旋转,改变信息量在不同因子上的分布,最终方便对结果的解释。2.1.1.2因子分析 2006年9月陕西师范大学国际商学院主成分分析/因子分析的用途有:(1)解决共线性问题:如前所述,利用主成分分析提取出主要信息,然后使用提取出的主成分代替原变量进行分析,就可以避开原变量的共线性问题。(2)评价问卷的结构效度:通过因子分析得出问卷中哪些问题用于研究那些潜在特征(因子),从而得出该问卷结构效度如何的评价。这在社会学和流行病学调查中是非常常用的手段。(3)寻找变量间潜在结构:许多变量是无法直接观测到的,它们往往需要用一系列可直接观测的相关变量来间接反映。通过因子分析,就可以将这些变量间潜在的结构推导出来加以利用。(4)内在结构证实:在有的情况下,研究者根据某些理论或其他知识已对可能的内在结构进行了假设,此时可利用因子分析来验证该假设是否成立,这种因子分析也被称为证实性因子分析,在心理学研究中较为常见。2.1.1.3方法用途 2006年9月陕西师范大学国际商学院2.1.1.4适用条件主成分分析的目的是提取信息,对样本量没有太严格的要求。因子分析则不同,它更多的是寻找内在结构,因此要求样本量比较充足,否则可能无法得到稳定和准确的结果。根据Gorsuch(1983)的观点,因子分析时的样本量要求如下:(1)样本量与变量数的比例为5:1以上,实际上理想的样本量应为变量数的确10~25倍,但这很难做到。5~10倍之间虽略显不足,但一般都能得到较好的结果。(2)总样本量不得少于100,而且原则上越大越好。除了样本量外,既然要从许多变量中提取出共同因素,主成分/因子分析有一个默认的前提条件就是各变量间必须有相关性,否则各变量间没有共享信息,就不应当有公因子需要提出,自然也谈不上使用该方法。这是主成分/因子分析最为严格的前提要求。具体在该条件的判断上,除了根据专业知识来估计外,还可以使用KMO统计量和Bartlett's球形检验加以判定。 2006年9月陕西师范大学国际商学院KMO统计量:用于探查变量间的偏相关性,它比较的是各变量间的简单相关和偏相关的大小,取值范围为0~1之间。如果各变量间存在内在联系,则由于计算偏相关时控制其他因素就会同时控制潜在变量,导致偏相关系数远远小于简单相关系数。此时KMO统计量接近1,做因子分析的效果好。一般认为当KMO大于0.9时效果最佳,0.7以上尚可,0.6时效果很差,0.5以下时不适宜做因子分析。Bartlett's球形检验:用于检验相关阵是否是单位阵,即各变量是否各自独立。如果结论为不拒绝该假设,则说明这些变量可能各自独立提供一些信息,之间恐怕没什么联系。 2006年9月陕西师范大学国际商学院重要概念:(1)因子负荷:即前面因子分析表达式中各因子的系数值,用于反映因子和各个变量间的密切程度。当各公因子间完全不相关时,因子负荷值就等于因子与变量的相关系数。它的绝对值越大,说明该因子对当前变量的影响程度越大。如前面举的食品的例子中,第一公因子主要影响价格、是否快餐食品和能量,第二公因子则主要影响味道和风味。(2)公因子方差比(communalities):指的是提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的方差中由公因子决定的比例。公因子方差比在0~1之间,取值越大,说明该变量能被因子说明的程度越高,如果各因子间完全独立,则公因子方差比和因子负荷实际上是等价。(3)特征根(eigenvalue):它可以被看成是主成分影响力度的指标,代表引入该因子/主成分后可以解释平均原始变量的信息。2.1.1.5有关概念及分析步骤: 2006年9月陕西师范大学国际商学院分析步骤:(1)根据具体问题,判断是否需要进行因子分析,并采用KMO检验及球形检验来判断数据是否符合分析要求。(2)进行分析,按一定标准确定提取的因子数目。(3)如果进霆的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束。(4)如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转以寻求最佳解释方式。(5)如有必要,可计算出因子得分等中间指标供进一步分析使用。 2006年9月陕西师范大学国际商学院在主成分分析希望用尽可能少的主成分包含原来尽可能多的信息,那么如何确定需要保留的主成分数量?有以下几点原则可以遵循:(1)主成分的累积贡献率:一般来说,提取主成分的累积贡献率达到80~85%以上就比较满意了,可以此决定需要提取多少个主成分。(2)特征根:特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。(3)综合判断:大量的实践表明,如果根据累积贡献率确定主成分数往往较多,而用特征根来确定又往往偏低,许多时候应当将两者结合起来,以综合确定合适的数量。在因子分析中确定提取公因子数量的原则和主成分分析基本相同,但是更加灵活,即重点在提取出的公因子的可解释性上,如果有实际意义,即使贡献率较小,也可以考虑保留。而如果特征根大于1,但是找不到合理的解释,则宁可将该主成分去除。2.1.1.6主成分/公因子数量确定 2006年9月陕西师范大学国际商学院2.1.2界面说明1、主对话框(1)Variables框:用于选入需要进行分析的变量。(2)SelectionVariables框:用于选择一个筛选变量,进入后需要使用右侧的Value钮填入一个数值,数据集中该变量值等于此数值的记录才被纳入分析。 2006年9月陕西师范大学国际商学院2、Descriptives子对话框(1)Statistics复选框组:提供分析中的一些常用描述统计量。Univariatedescriptives:输出每个变量的均数、标准差和样本量。Initialsolution:输出原始分析结果。包括原变量的公因子方差,与变量相同个数的因子,各因子的特征根及其所占总方差的百分比和累积百分比。系统默认选中该选项,但如果在后面选择了其他分析结果输出,该选项无效。(2)CorrelationMatrix复选框:给出一系列变量间的相关性指标及相关检验。Coefficients:列出所有变量间的相关系数阵。Significancelevel:列出所有变量相关系数单侧检验的P值。Determinant:输出相关系数矩阵的行列式。KMOandBartlett'stestofsphericity:这是极为重要的一项输出,请大家务必选中,具体解释已讲过。剩下的三个分别是Inverse(相关系数矩阵的逆矩阵)、Reproduced(再生相关阵)和Anti-imange(反映象协方差和相关阵),它们实际上没有什么实用价值。 2006年9月陕西师范大学国际商学院3、Rotation子对话框(1)Method单选框组:选择在提取因子时是否采用旋转,以及具体的旋转方法。旋转并不会影响公因子的提取过程和结果,只会影响各处变量对各因子的贡献率。之所以有时需要旋转,是因为按照默认的分解方式,各因子可能难以找到所代表的实际意义,此时通过适当旋转,改变信息量在不同因子上的分布,就可能为所有因子找到合适的解释。SPSS中一共给出了五种旋转方法,可被分为正交和斜交两大类,从实用出发,各自解释两类中最常用的一种:Varimax:方差最大化正交旋转。此法最常用,一般都能简化对因子的解释。它旋转的原则是各因子仍然保持直角正交,但使得因子间方差的差异达到最大(相对载荷平方之和达到最大)。用一个通俗的比喻讲,就好象在平面坐标上保持以圆点为轴心,X、Y轴交角为直角,然后对坐标轴进行旋转。Promax:斜交旋转中最常用的一种,它的计算速度较快,旋转后允许因子间存在相关(交角非直角)。这种旋转方式往往是在有具体的分析目的时选用,即通过此法将因子分解为希望的形式。在实际应用中,由于斜交旋转的结果太容易受研究者主观意愿的左右,所以人们一般都采用默认的正交旋转。 2006年9月陕西师范大学国际商学院(2)Display复选框组:输出和因子旋转有关的两个结果。Rotatedsolution:要求给出主成分转换矩阵,该矩阵提供了旋转前后因子之间的变换系数,通过它我们可以直接用手工计算在两组因子得分间进行变换。Loadingplots:给出三维或二维的因子空间载荷图。在该图中坐标轴为因子值,各变量以散点的形式分布其中。从中可以非常直观的观察变量与因子间的关系。(3)MaximumIterationsforConvergence框:设置因子旋转计算时允许的最大迭代次数,默认为25次。 2006年9月陕西师范大学国际商学院4、Extraction子对话框(1)Method下拉列表:用于选择公因子的提取方法,共提供了7种方法,这七种方法的结果没有什么区别,下面介绍两种。Principalcomponents:主成分分析法,使用此法则因子分析和主成分分析基本等价,只是运算目的不同而已。该方法从解释变量的变异出发,尽量使变量的方差能够被主成分所解释。Principalaxisfactoring:公因子分析法,该法是从解释变量的相关性出发,使得变量间的相关程度心意尽量被公因子所解释。当因子分析的目的重在确定结构,而对变量方差的情况又不太关心时可能会用到此法。(2)Analyze单选框:选择使用变量间的相关阵还是协方差进行分析,按系统默论据相关阵即可。 2006年9月陕西师范大学国际商学院(3)Display复选框:这里可以选择两个重要的输出内容。Unrotatedfactorsolution:显示未经旋转变换的因子提取结果。Screeplot:画出碎石图,该图用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小。它将因子按特征根从大到小依次排列,从中可以非常直观地了解到哪些是最主要的因子。(4)Extract单选框:设定公因子的提取标准。Eigenvaluesover:以特征根大于某数值为标准。系统默认为1。Numberoffactors:自定义提取因子的数量,在右侧框内填入正整数。(5)MaximumIterationsforConvergence框:设置因子旋转计算时允许的最大迭代次数,默认为25次。 2006年9月陕西师范大学国际商学院5、Score子对话框选择是否将因子得分存入文件,以及具体的得分计算方法。(1)SaveasVariables:将计算出的因子得分作为新变量加入数据文件,注意此处加入的是经过标准化的因子得分。(2)Method单选框组:用于选择计算因子得分用的方法,使用默认的回归法即可。(3)Displayfactorscorecoefficientmaxtrix:显示因子得分系数阵,通过该系数阵就可以将所有公因子表示为各个变量的线性组合,也就是我们所需要的主成分分析的结果,系统同时会给出因子得分的协方差阵。 2006年9月陕西师范大学国际商学院6、Options子对话框(1)Missingvalues单选框组:选择对缺失值的处理方式。(2)CoefficientDisplayFormat复选框组:选择系数的输出方式。注意第二个复选框“Suppressabsolute...”,使用它可以抑制次要系数的输出,使结果更清晰易读。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭