SPSS19.0经典教程(1254页)

SPSS19.0经典教程(1254页)

ID:37473137

大小:10.09 MB

页数:1254页

时间:2019-05-24

上传者:U-145848
SPSS19.0经典教程(1254页)_第1页
SPSS19.0经典教程(1254页)_第2页
SPSS19.0经典教程(1254页)_第3页
SPSS19.0经典教程(1254页)_第4页
SPSS19.0经典教程(1254页)_第5页
资源描述:

《SPSS19.0经典教程(1254页)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

第1章统计软件SPSS基础 1.1SPSS的产生及发展SPSS是软件英文名称的首字母缩写,全称为:StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。它是目前世界上流行的三大统计分析软件之一(SAS、SPSS及SYSTAT)。在我国,SPSS以其强大的统计分析功能、方便的用户操作界面、灵活的表格式报告及其精美的图形展现,受到了社会各界统计分析人员的喜爱。 1.2SPSS的主要特点操作简便、上手容易分析功能强大图表类型丰富数据转换接口完善二次开发功能强大 1.3SPSS对系统的要求及安装1.3.1硬件环境要求SPSSStatistics19.0对硬件的基本要求:1GHz以上的Intel或AMD处理器。至少512M的内存。官方推荐1G内存及以上。至少800M的硬盘剩余空间。DVD光盘驱动器。Windows98/Me/2000/XP/2003/7兼容的图形适配卡及以上。支持TCP/IP网络协议的网络适配卡,主要用于软件更新及各类相关服务。 1.3.2软件环境要求SPSSStatistics19.0要求的操作系统是WindowsXP(32位)、Vista(32位或64位)或Windows7(32位或64位)。IE7.0及以上版本。AdobeReader阅读器。主要用它来阅读各类SPSS安装及使用文件。 1.3.3SPSS的安装和卸载•1.3.3.1SPSS的安装SPSSStatistics19.0光盘版的安装步骤:1.将SPSSStatistics19.0安装光盘插入光驱。2.若系统设置为自动运行光盘状态,则会自动执行安装文件;若光盘没有自动运行,则在光盘目录中双击setup.exe文件,系统立即自动安装程序。3.按照安装向导界面的提示,指定安装路径、输入用户信息、序列号等,一步步的单击Next按钮,最后单击安装向导界面上的Finish按钮后,表示SPSS软件的安装程序结束。 1.3.3.2SPSS的卸载1.在Windows的【开始】菜单中,选择【设置】→【控制面板】→【添加或删除硬件】命令,弹出【添加或删除硬件】对话框。2.在程序列表中选择【SpssStatistics19.0】项,然后单击【删除】按钮。3.在执行完删除命令后,单击【确定】按钮,此时删除SPSS软件成功。 1.4SPSS的启动与退出1.4.1SPSS的启动•正确安装完SPSS19.0后,可以创建快捷方式快速使用SPSS软件,也可以执行计算机【开始】菜单中的【程序】→【IBMSPSSStatistics】→【IBMSPSSStatistics19】命令,启动软件。注意:在首次运行SPSS软件时,会弹出右图所示的对话框,该对话框主要是启动引导窗口。 1.4.2SPSS的退出选择菜单栏中的【File(文件)】→【Exit(退出)】命令退出SPSS。单击数据编辑器右上角的关闭按钮。直接使用快捷键Alt+F4。注意:无论采用哪种方式退出软件,软件都不会自动保存修改的数据文件或结果,因此关闭时,要注意及时存盘。 1.5SPSS的主要窗口1.5.1数据编辑窗口1.5.2结果输出窗口1.5.3语句窗口1.5.4脚本编辑窗口 1.5.1数据编辑窗口启动SPSSStatistics19.0后,系统会自动打开数据编辑窗口(DataEditor)。可以选择菜单栏中的【File(文件)】→【New(新建)】→【Data(数据)】命令,新建一个SPSS的数据文件,如右图所示;或者选择菜单栏中的【File(文件)】→【Open(打开)】→【Data(数据)】命令打开一个保存的数据文件。 1.5.2结果输出窗口PSS的Output(输出)窗口SPSSViewer,一般随执行统计分析命令而打开,用于显示统计分析结果、统计报告、统计图表等内容,允许用户对输出结果进行常规的编辑整理,窗口内容可以直接保存,保存文件的扩展名为“*.spv”。 1.5.3语句窗口•选择菜单栏中的【File(文件)】→【New(新建)】→【Syntax(语法)】命令,新建一个SPSS的语句文件,如下图所示。•选择菜单栏中的【File(文件)】→【Open(打开)】→【Syntax(语法)】命令,打开一个保存的语句文件。 1.5.4脚本编辑窗口选择菜单栏中的【File(文件)】→【New(新建)】→【Script(脚本)】命令,新建一个SPSS的脚本编辑窗口,如下图所示。选择菜单栏中的【File(文件)】→【Open(打开)】→【Script(脚本)】命令,打开一个保存的脚本语言文件。 1.6SPSS菜单命令详解1.6.1基本菜单栏1.6.8DirectMarketing菜单1.6.2File菜单1.6.3Edit菜单1.6.9Graphs菜单1.6.4View菜单1.6.10Utilities菜1.6.5Data菜单单1.6.6Transform菜1.6.11Add-ons菜单单1.6.12Windows菜单1.6.7Analyze菜单1.6.13Help菜单 1.6.1基本菜单栏名称基本用途File文件操作Edit文件编辑View视图编辑Data数据操作Transform数据转换Analyze统计分析方法DiectMarketing直销分析Graphs图形编辑Utilities实用程序Add-ons附加程序Windows窗口控制Help帮助 1.6.2File菜单•New新建文件•Open打开文件•OpenDatabase打开数据库•ReadTextData读取文本数据•Close关闭文件•Save保存文件•SaveAs另存为,按指定路径存盘•SaveallData保存所有数据 •ExporttoDatabase输出至指定数据库•MarkFileReadOnly标注文件只读•RenameDataset数据集更名•DisplayData显示数据信息Information•CacheData建立数据高速缓冲区•StopProcessor停止进程•SwitchServer打开服务器 •Repository存储库•PrintPreview打印预览•Print打印•RecentlyUsedData最近使用数据•RecentlyUsedFiles最近使用文件•Exit退出 1.6.3Edit菜单•Undo撤销上次编辑操作•Redo恢复上次编辑操作•Cut剪切•Copy复制•Paste粘贴•PasteVariable粘贴变量•Clear删除所选择的内容•InsertVariable插入变量 •InsertCases插入观测量•Find查找•FindNext查找下一个•Replace替换•GotoCase光标移动到指定观测量•GotoVariable光标移动到指定变量•GotoImputation光标移动到错误处•Option选项,设置SPSS工作环境等 1.6.4View菜单•StatusBar状态栏显示•Toolbars工具条栏显示•MenuEditor菜单编辑器•Fonts字体•GridLines显示/隐藏格线•ValueLabels显示/隐藏变量值标签•MarkImputedData标记错误数据•CustomizeVariableView查看自变量•Variables变量定义窗口和数据编辑窗口转换 1.6.5Data菜单•DefineVariableProperties定义变量属性•SetMeasurementLevelfor设置未知测量级别Unknown•CopyDataProperties复制数据属性•NewCustomAttribute新的自定义属性•DefineDates定义日期•DefineMultipleResponse定义多重反应集Sets•Validation验证•IdentifyDuplicateCases标识重复观测量 •IdentifyUnusualCases标识异常观测量•SortCases观测量排序•SortVariables变量排序•Transpose行列转置•MergeFiles合并文件•Restructure重新构建数据文件 •Aggregate数据汇总•OrthogonalDesign正交设计•CopyDataset复制数据集•SplitFile分割文件•SelectCases选择观测量•WeightCases观测量加权 1.6.6Transform菜单•ComputeVariable通过计算建立新变量•CountValueswithinCase依据观测量计数s•ShiftValues生成滞后数据•RecodeintoSameVariabl变量重新赋值给同一变量es变量重新赋值给不同变量•RecodeintoDifferentVar自动赋值iables可视离散化•AutomaticRecode最优离散化•VisualBinning•OptimalBinning •PrepareDataforModeli准备建模数据ng•RankCases求观测量的秩•DataandTimeWizard设定日期/时间变量•CreateTimeSeries产生时间序列•ReplaceMissingValues缺失值替换•RandomNumberGenera产生随机数tors•RunPendingTransforms运行待解决的变量变换 1.6.7Analyze菜单•Reports生成数据报告•DescriptiveStatistics描述性统计•Tables生成统计表格•CompareMeans均值比较分析•GeneralLinearModel一般线性模型•GeneralizedLinearMo广义线性模型des•MixedModels混合模型•Correlate相关分析 •Regression回归分析•Loglinear对数线性模型•NerualNetworks人工神经网络•Classify聚类与判别分析•DimensionReduction降维分析•Scale测度分析•NonparametricTests非参数检验•Forecasting预测分析 •Survival生存分析•MultipleResponse多选项分析•MissingValuesAnal缺失值分析ysis•MultipleImputation多重插补分析•ComplexSamples复杂样品分析•QualityControl质量控制分析•ROCCurveROC曲线 1.6.8DirectMarketing菜单Helpidentifymybestcontacts(RFMAnalysis):择帮助标识我的最佳联系人(RFM分析)Segmentmycontactsintoclusters:将我的联系人分段到聚类GenerateproFilesofmycontactswhorespondedtoanoffer:生成对产品做出响应的我的联系人的概要文件Identifythetoprespondingpostalcodes:标识最佳响应邮政编码 Selectcontactsmostlikelytopurchase:选择最有可能购买的联系人Compareeffectivenessofcampaigns(ControlPackageTest):比较活动效果(控制包装检验)ApplyscoresfromamodelFile:应用来自模型文件的得分 1.6.9Graphs菜单•ChartBuilder图形生成器•GraphboardTemplateChooser图形模板选择1Bar条形图3-DBar三维条形图Line线图Area面积图Pie饼图High-Low高低图BoxPlot箱图ErrorBar误差条图PopulationPyramid人口金字塔图Scatter/Dot散点图Histogram直方图 1.6.10Utilities菜单•Variables变量信息说明•OMSControlPanelOMS控制面板•OMSIdentifiersOMS标识符•ScoringWizard评分向导•MergeModelXML合并模型XML•DataFileComments数据文件说明•DefineVariableSet定义变量集合s•UseVariableSets使用变量集合 •ShowAllVariables显示所有变量•Spelling拼写检查•RunScript运行脚本语言•ProductionJob生产工作•CustomDialogs生成对话框•ExtensionBundles拓展束 1.6.11Add-ons菜单•Applications添加其他应用程序•Services服务帮助•ProgrammabilityExt可编程延续ension•StatisticsGuides统计向导服务 1.6.13Help菜单•TopicsSPSS帮助主题•Tutorial用户指南•CaseStudies统计辅导学习•StatisticsCoach统计训练指导•CommandSynatxRefer语句命令参考ence•DeveloperCentral研发中心•About关于SPSS版本信息•Algorithms算法•SPSSInc.HomeSPSS官方主页•CheckforUpdates版本更新检查 1.7SPSS中英文界面的转换当首次安装软件时,SPSS界面为英文显示,此时可以采用如下方法将其转换为中文界面。1.选择菜单栏中的【Edit(编辑)】菜单中的【Option(选项)】命令。2.在弹出的对话框的【UserInterface(用户界面)】选项卡的【Language(语言)】选项组中点选【SimplifiedChinese(简体中文)】单选钮,表示选定软件中文界面显示。3.最后单击【OK(确定)】按钮,表示SPSS软件的界面语言转换过程结束。如果需要从中文界面转换为英文界面,也可按照上述操作来实现。 第2章SPSS统计分析前的准备 2.1SPSS数据文件的建立SPSS数据文件的建立可以利用【File(文件)】菜单中的命令来实现。具体来说,SPSS提供了四种创建数据文件的方法:●新建数据文件;●直接打开已有数据文件;●使用数据库查询;●从文本向导导入数据文件。 2.1.1新建数据文件打开SPSS软件后,现在菜单栏中的【File(文件)】→【New(新建)】→【Data(数据)】命令,可以创建一个新的SPSS空数据文件。接着,用户可以进行直接录入数据等后续工作。值得注意的是,SPSS19.0可以同时打开多个数据文件,用户可以在多个文件中进行转换操作,这比起低版本的SPSS来说,更方便用户使用。 2.1.2直接打开已有数据文件•打开SPSS软件后,现在菜单栏中的【File(文件)】→【Open(打开)】→【Data(数据)】命令,弹出【OpenData(打开数据)】对话框。选中需要打开的数据类型和文件名,双击打开该文件。 2.1.3利用数据库导入数据•打开软件后,现在菜单栏中的【File(文件)】→【OpenDatabase(打开数据库)】→【NewQuery(新建查询)】命令,弹出【DatabaseWizard(数据库向导)】对话框。通过这个数据库向导窗口,用户可以选择需要打开的文件类型,并按照窗口上的提示进行相关操作。 2.1.4文本向导导入数据•SPSS提供了专门读取文本文件的功能。打开软件后,现在菜单栏中的【File(文件)】→【ReadTextData(打开文本数据)】命令,弹出【OpenData(打开数据)】对话框。这里用户需要选择需要打开的文件名称,并且单击【Open(打开)】按钮进入文本文件向导窗口。 2.1.4文本向导导入数据 2.1.5实例分析:股票指数的导入•文件2-1.xls是上证指数从2007年1月4日至2008年10月16日的数据资料,包括了开盘价、当日最高价、当日最低价和收盘价等选项,请将该数据导入至SPSS中。 2.1.5实例分析:股票指数的导入•Step01:选定对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Open(打开)】→【Data(数据)】命令,弹出【OpenData(打开数据)】对话框。 2.1.5实例分析:股票指数的导入 2.1.5实例分析:股票指数的导入•Step02:选定打开文件类型在【Filesoftype(文件类型)】下拉列表框中指定打开Excel文件类型。接着,选择2-1.xls文件。最后单击【Open(打开)】按钮。 2.1.5实例分析:股票指数的导入 2.1.5实例分析:股票指数的导入•Step03:设置变量名称弹出的对话框中的【Readvariablenamesfromthefirstrowofdate(从第一行数据读取变量名)】复选框表示SPSS将Excel工作表的第一行设定为SPSS的变量名称,【Range(范围)】文本框表示选定Excel文件导入SPSS的数据范围。这里,保持系统默认选项。 2.1.5实例分析:股票指数的导入 2.1.5实例分析:股票指数的导入•Step04:完成操作最后,单击【OK(确定)】按钮,数据即可导入成功。此时,SPSS的数据浏览窗口中会出现相关的数据内容。 2.1.5实例分析:股票指数的导入 2.2SPSS数据文件的属性一个完整的SPSS文件结构包括变量名称、变量类型、变量名标签、变量值标签等内容。用户可以在创建了数据文件后,单击数据浏览窗口左下方的【VariableView(变量视图)】选项卡,进入数据结构定义窗口。用户可以在该窗口中设定或修改文件的各种属性。注意:SPSS数据文件中的一列数据称为一个变量,每个变量都应有一个变量名。SPSS数据文件中的一行数据称为一条个案或观测量(Case)。 2.2SPSS数据文件的属性 2.2.1变量名:Name栏变量名(Name)是变量存取的唯一标志。在定义SPSS数据属性时应首先给出每列变量的变量名。变量命名应遵循下列基本规则:●SPSS变量长度不能超过64个字符(32个汉字);●首字母必须是字母或汉字;●变量名的结尾不能是圆点、句号或下划线;●变量名必须是唯一的;●变量名不区分大小写;●SPSS的保留字不能作为变量名,例如ALL、NE、EQ和AND等;●如果用户不指定变量名,SPSS软件会以“VAR”开头来命名变量,后面跟5个数字,如VAR00001、VAR00019等。注意:为了方便记忆,用户所取的变量名最好与其代表的数据含义相对应。 2.2.2变量类型:Type栏•变量类型是指每个变量取值的类型。SPSS提供了三种基本数据类型:数值型、字符型和日期型。 2.2.3变量格式宽度:With栏变量格式宽度With是指在数据窗口中变量列所占的单元格的列宽度,一般用户采用系统默认选项即可。值得注意的是,如果变量宽度大于变量格式宽度,此时数据窗口中显示变量名的字符数不够,变量名将被截去尾部作不完全显示。被截去的部分用“*”号代替。 2.2.4变量小数位数:Decimals栏【DecimalsPlaces】文本框可以设置变量的小数位数,系统默认为两位。 2.2.5变量名标签:Label栏变量名标签(Label)是对变量名含义的进一步解释说明,它可以增强变量名的可视性和统计分析结果的可读性。用户有时在处理大规模数据时,变量数目繁多,此时对每个变量的含义加以标注,有利于用户弄清每个变量代表的实际含义。变量名标签可用中文,总长度可达120个字符。同时该属性可以省略,但建议最好给出变量名的标签。 2.2.5变量名标签:Label栏 2.2.6变量值标签:Values栏•变量值标签(Values)是对变量的可能的取值的含义进行进一步说明。变量值标签特别对于数值型变量表示非数值型变量时尤其有用。•定义和修改变量值标签,可以双击要修改值的单元格,在弹出的对话框的【Values(值)】文本框中输入变量值,在【Label(标签)】文本框中输入变量值标签,然后单击【Add(添加)】按钮将对应关系选入下边的白框中。同时,可以单击【Change(改变)】和【Remove(移动)】按钮对已有的标签值进行修改和剔除。最后单击【OK(确定)】按钮返回主界面。 2.2.6变量值标签:Values栏 2.2.7变量缺失值:Missing栏在统计分析中,收集到的数据可能会出现这样的情况:一是数据中出现明显的错误和不合理的情形;另一种是有些数据项的数据漏填了。双击【Missing(缺失)】栏,在弹出的对话框中可以选择三种缺失值定义方式。 2.2.8变量列宽:Columns栏•【Columns(列)】栏主要用于定义列宽,单击其向上和向下的箭头按钮选定列宽度。系统默认宽度等于8。 2.2.9变量对齐方式:Align栏•【Align(对齐)】栏主要用于定义变量对齐方式,用户可以选择Left(左对齐)、Right(右对齐)和Center(居中对齐)。系统默认变量右对齐。 2.2.10变量测度水平:Measure栏•【Measure(测度)】栏主要用于定义变量的测度水平,用户可以选择Scale(定距型数据)Ordinal(定序型数据)和Nominal(定类型数据。 2.2.11变量角色:Role栏•【Role(角色)】栏主要用于定义变量在后续统计分析中的功能作用,用户可以选择Input、Target和Both等类型的角色。 2.2.11实例分析:员工满意度调查表的数据属性设计•1.实例内容为了提高员工的工作积极性,完善公司各方面管理制度,并达到有的放矢的目的,某公司决定对本公司员工进行不记名调查,希望了解员工对公司的满意情况。请根据该公司设计的员工满意度调查题目(行政人事管理部分)的特点,设计该调查表数据在SPSS的数据属性。 2.实例操作具体步骤如下。•Step01:打开SPSS中的DataView窗口,录入或导入原始调查数据。•Step02:选择菜单栏中的【File(文件)】→【Save(保存)】命令,保存数据文件,以免丢失。•Step03:单SPSS中的【VariableView(变量视图)】选项卡,按窗口提示进行数据属性的定义,如变量名称、标签、标签值等。 3.实例结果 2.3SPSS数据文件的整理•通常情况下,刚刚建立的数据文件并不能立即进行统计分析,这是因为收集到的数据还是原始数据,还不能直接利用分析。此时,需要对原始数据进行进一步的加工、整理,使之更加科学、系统和合理。这项工作在数据分析中称之为统计整理。•【Data(数据)】菜单中的命令主要用于实现数据文件的整理功能。 2.3.1观测量排序:地区生产总值分析SPSS操作详解•Step01:打开观测量排序对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Data(数据)】→【SortCases(排序个案)】命令,弹出【SortCases(排序个案)】对话框。 1.SPSS操作详解•Step02:选择排序变量在左侧的候选变量列表框中选择主排序变量,单击右向箭头按钮,将其移动至【Sortby(排序依据)】列表框中。•Step03:选择排序类型在【SortOrder(排列顺序)】选项组中可以选择变量排列方案。•Step04:单击【OK】按钮,此时操作结束。 2.实例内容:地区生产总值分析地区生产总值是指某地区在一定时间内的国内生产总值,它可以作为衡量该地区经济发展的重要综合指标。随书光盘中的数据2-3.sav列出了2005年我国部分省份的地区生产总值及第一产业、第二产业和第三产业的生产总值,请根据这些数据分析不同省份经济发展状况的差异性。 •Step01:选定对话框打开SPSS软件,选择菜单栏中的【Data(数据)】→【SortCases(排序个案)】命令,弹出【SortCases(排序个案)】对话框。 •Step02:选择排序变量在左侧的候选变量列表框中选择主排序变量DQ,单击右向箭头按钮,将变量选择进入【Sortby(排序依据)】列表框中。 •Step03:选择排序类型为了表示不同省份生产总值的差异,按照从高到低的排列顺序,这里点选【Descending(降序)】单选钮,表示观测值按照降序进行排序。 Step03:选择排序类型 •Step04:完成操作最后,单击【OK(确定)】按钮,操作完成。此时,SPSS的数据浏览窗口中观测量的顺序发生改变。 2.3.2数据的转置:国家财政分项目收入1.操作详解•Step01:打开转置对话框打开SPSS软件,选择菜单栏中的【File(文件)】→Data(数据)】→【Transpose(转置)】命令,弹出【Transpose(转置)】对话框。 •Step02:选择转置变量在左侧的候选变量列表框中选择需要进行转置的变量,单击右向箭头按钮,将其移动至【Variable(s)(变量)】列表框中。•Step03:新变量命名从左侧的候选变量列表框中可以选择一个变量,应用它的值作为转置后新变量的名称。此时,选择该变量进入【NameVariable(名称变量)】列表框内即可。如果用户不选择变量命名,则系统将自动给转置后的新变量赋予Var001、Var002…的变量名。•Step04:单击【OK】按钮,操作结束。注意:数据文件转置后,数据属性的定义都会丢失,因此用户要慎重选择本功能。 2.实例内容:国家财政分项目收入数据(2-4.sav) Step01:选定对话框 Step02:选择转置变量 Step03:新变量命名 Step04:完成操作 2.3.3文件合并:固定资产投资•【data(数据)】→【MergeFiles(合并文件)】菜单中有两个命令选项:【AddCases(添加个案)】和【AddVariables(添加变量)】。 1.观测量合并的SPSS操作详解观测量合并要求两个数据文件至少应具有一对属性相同的变量,即使它们的变量名不同。具体步骤如下。Step01:打开观测量合并对话框选择菜单栏中的【File(文件)】→【Data(数据)】→【MergeFiles(合并文件)】→【AddCases(添加个案)】命令,弹出【AddCases(添加个案)】对话框 •Step02:选择合并文件点选【AnexternalSPSSStatisticsdatafile(外部SPSSStatistics数据文件)】单选钮,同时单击【Browse】按钮,选中需要合并的文件,并指定文件路径,然后单击【Continue】按钮。•Step03:选择合并方法。•Step04:单击【OK】按钮,操作结束。 2.变量合并的SPSS操作详解变量合并要求两个数据文件必须具有一个共同的关键变量(KeyVariable),而且这两个文件中的关键变量还具有一定数量的相同的观测量数值。•Step01:打开变量合并对话框。•Step02:选择合并文件。•Step03:选择合并方法。•Step04:单击【OK】按钮,操作结束。 3.实例内容:固定资产投资文件的合并已知2-5-1.sav、2-5-2.sav和2-5-3.sav中的数据是北京、天津、河北等省市在2005年部分行业的固定投资额(亿元)数据,请完成以下问题。问题一:将2-5-1.sav和2-5-2.sav的数据文件纵向合并。问题二:将2-5-2.sav和2-5-3.sav的数据文件横向合并。 Step01:打开对话框(问题一) Step02:选择合并文件 Step03:选择合并方法 Step04:建立指示变量 Step05:完成操作 Step01:打开对话框(问题二) Step02:选择合并文件 Step03:建立指示变量 Step04:完成操作 2.3.4数据分类汇总:城乡居民储蓄存款对数据进行分类汇总就是按指定的分类变量值对所有的观测量进行分组,对每组观测量的变量求描述统计量,并生成分组数据文件。例如,将一个工厂的数据资料,按照该工厂的各个部门进行分组,并统计各个部门的人员年龄均值、方差等,这些工作就属于数据分类汇总的范畴。 1.数据分类汇总的SPSS操作详解•分类变量(BreakVariable):它是对样本数据进行分类的变量,如按性别、民族、行业性质等进行分类汇总。这种变量可以为数值型或字符型变量。•汇总变量(AggregateVariable):利用源数据文件中的变量和相应的汇总函数产生的新变量名称及其表达式。这种变量必须要求为数值型变量。例如,按性别统计年收入的平均值,此时“性别”是汇总变量,“每人年收入”是源变量,“不同性别的年收入均值”就属于汇总变量。 Step01:打开数据汇总对话框•打开SPSS软件,选择菜单栏中的【File(文件)】→【Data(数据)】→【Aggregate(分类汇总)】命令,弹出【AggregateData(汇总数据)】对话框。 •Step02:选择分类变量在左侧的候选变量列表框中选择一个或多个变量作为分类变量,将其移入【BreakVariable(s)(分组变量)】列表框中。•Step03:选择汇总变量在左侧的候选变量列表框中选择一个或多个变量作为汇总变量,将其移入【SummariesofVariable(s)(变量摘要)】列表框中。 Step04:选择汇总函数•在【SummariesofVariable(s)(变量摘要)】列表框中可以选择相应汇总变量,此时可以单击下方的【Function】按钮,打开如下图所示的对话框。 Step05:添加变量标签在【SummariesofVariable(s)(变量摘要)】列表框中可以选择相应汇总变量,此时可以单击下方的【NameandLabel】按钮,弹出如下图所示的对话框。 •Step06:选择汇总结果保存方式在【save(保存)】选项组中可以选择汇总结果的保存方式。•Step07:大规模数据的排序选择勾选【OptionsforVeryLargeDatasets(适用于大型数据集的选项)】复选框,可以对含有大规模数据的数据文件进行汇总之前的排序工作,这样能使得后续操作更有效率。•Step08:完成上述操作后,单击【OK】按钮,操作结束。 2.实例内容:城乡居民人民币储蓄存款•下图是我国部分省份2004年度城乡居民的人民币储蓄存款金额(年底余额,单位:亿元)。 Step01:打开对话框 •Step02:选择分类变量从对话框左侧的候选变量列表框中选择“省份”变量作为分类变量,将其移入【BreakVariable(s)(分组变量)】列表框中。•Step03:选择汇总变量从对话框左侧的候选变量列表框中选择“城镇储蓄”和“农户储蓄”作为汇总变量,将其移入【SummariesofVariable(s)(变量摘要)】列表框中。由于这里主要是比较存款金额的高低水平,因此选择系统默认的平均值函数。 •Step04:选择汇总结果保存方式在【Save(保存)】选项组中点选【Writeanewdatafilecontainingonlytheaggregatedvariables】单选钮,其目的是新建aggr.sav的外部数据文件保存汇总结果。•Step05:单击【OK(确定)】按钮完成操作。 2.3.5数据文件的拆分Split1.数据分类汇总的SPSS操作详解Step01:打开数据拆分对话框•打开SPSS软件,选择菜单栏中的【File(文件)】→【Data(数据)】→【SplitFile(拆分文件)】命令,弹出【SplitFile(拆分文件)】对话框。 •Step02:选择数据拆分方式。•Step03:选择拆分变量。•Step04:单击【OK】按钮,操作结束。注意:拆分后的文件在保存之后,下次调用该文件时,拆分结果仍然有效。当不需要分组时,可以按上述操作,点选【Analyzeallcases,donotcreategroups(分析所有个案,不创建组)】单选钮。 2.实例内容:分行业职工平均工资下图是2005年我国部分按细行业划分的职工平均工资,请根据不同的行业类型,对原始数据进行拆分,数据详见2-7.sav。 Step01:打开对话框 Step02:选择数据拆分方式Step03:选择拆分变量 Step04:完成操作 2.3.6选择数据:城市设施水平•1.操作详解•Step01:打开数据选择对话框打开SPSS软件,在菜单栏中选择【File(文件)】→【Data(数据)】→【SelectCases(选择个案)】命令,弹出【SelectCases(选择个案)】对话框。 Step02:选择数据选择方式•单击【If】按钮时,会弹出如下图所示的对话框。 •单击【Sample】按钮,弹出如下图所示的对话框。 •单击【Range】按钮,弹出如下图所示的对话框。 •Step03:选择输出方式在【SelectCases(选择个案)】对话框的【Output(输出)】选项组中可以选择变量的输出方式。•Step04:单击【OK】按钮,操作结束。 2.实例内容:城市设施水平数据文件2-8.sav中是2006年我国部分地区城市设施水平指标,包括城市用水普及率、城市燃气普及率等。请根据这些原始数据,按照以下条件选择数据。条件一:选择城市用水普及率和城市燃气普及率都大于90%的地区。条件二:随机选取10个地区。 (条件一)Step01:打开对话框 Step02:设置数据选择方式•点选【Ifconditionissatisfied(如果条件满足)】选项,表示选择满足题目要求条件的观测量。同时单击【If】按钮,弹出条件选择对话框。 Step03:设置选择条件 Step04:完成操作 条件二•条件二属于随机选择的问题,因此需要点选【Randomsamplesofcases(随机个案样本)】单选钮,同时在弹出的【SelectCases:RandomSample(选择个案:随机样本)】对话框的“Exactlycasesformthefiirstcases”文本框中分别输入10和31,表示从31个观测量中选择10个观测量。最后,单击【Continue】按钮返回主对话框,随机选取的样本结果如下页所示。 2.3.7数据加权:蔬菜的平均价格•权重是数据分析中的一个重要概念,它是一个相对的概念。权重的大小描述了该指标在整体评价中的相对重要程度。在数据处理中,常需要对数据进行加权处理。•在记录有大量数据的文件中,可能同一观测量值会反复出现,如性别、民族等。如果在建立数据文件时能定义一个频数变量,也称为权重变量,用它来代表相同观测量出现的次数,这样后续的统计分析工作就会极大的简化。 1.数据加权的SPSS操作详解•Step01:打开数据加权对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Data(数据)】→【Weightcases(加权个案)】命令,弹出【Weightcases(加权个案)】对话框。 2.实例内容:蔬菜的平均价格•某经销商希望掌握菜市场的蔬菜销销售的平均价格,收集数据见数据文件2-9.sav。现请利用这些数据,求出这些蔬菜的平均价格。 •Step1:由于经销商要求掌握蔬菜的平均价格,如果仅仅只用蔬菜的单价进行简单的算术平均是很不合理的,这是因为不同蔬菜的销售量不同,所以要考虑销售量对平均价格的影响。因此,我们以蔬菜的销售量为权重计算各种蔬菜销售的平均价格更为合适。这里选择“销售量”变量作为权重变量,将其放入【FrequenciesVariable(频率变量)】列表框中,此时就可以进行后续的求平均值工作了。 •Step02:选择变量是否加权,用户首先选择是否对观测量进行加权。●Donotweightcases:不对观测量加权,系统默认项。●Weightcasesby:对观测量加权,同时从左侧的候选变量列表框中选择权重变量移入【FrequencyVariable(频率变量)】列表框中。•Step03:单击【OK】按钮,操作结束。 2.4SPSS数据的计算和变换•在数据分析中,经常要根据一些已知的数据变量计算新的变量。例如,根据历年的产量数据资料计算产量的发展速度,根据人口数据计算人口出生率、死亡率等。不仅如此,还需要进行不同类型变量之间的转换,如将数值型变量转化为字符型变量。这些工作都需要利用【Transform(转换)】菜单中的相关命令。 2.4.1变量计算:国内生产总值的产业构成•变量计算是数据分析中的重要内容之一。有些时候,收集到的原始数据并不能直接提供给我们许多有用的信息,此时,我们需要将原始数据进行计算变换,生成有用的新的变量。例如,根据职工的基本工资、各类保险、公积金等,计算职工的实际月收入;根据购房客户的贷款总额和按揭方案评价客户的潜在风险等。 1.SPSS操作详解•Step01:打开变量计算对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Transform转换】→【Compute(计算)】命令,弹出【Compute(计算)】对话框。 Step02:定义新变量及其类型•在【TargetVariable(目标变量)】文本框中用户需要定义目标函数名,它可以是一个新变量名,也可以是已经定义的变量名。单击下方的【Type&Label】按钮,弹出类型和标签对话框。 Step03:输入计算表达式•可以使用计算器板或键盘将计算表达式输入到【NumericExpression(数值表达式)】文本中。如果用户需要调用函数,可以从右侧的【Function(函数)】列表中选择,系统提供了数学函数、逻辑函数、日期函数等。 •Step04:条件样本选择单击【If】按钮,弹出的对话框如下图所示。Step05:结束操作单击【OK】按钮,此时操作结束。 2.实例内容:国内生产总值的产业构成•数据文件2-10.sav为我国1978-2005年国内生产总值、第一产业国内生产总值、第二产业国内生产总值和第三产业国内生产总值,请分析不同产业所占国内生产总值的变动情况。 Step01:打开对话框 •Step02:定义第一产业比重变量在【TargetVariable(目标变量)】文本框中定义目标函数名为“a”,它表示第一产业生产总值所占总产值的比重。•Step03:计算第一产业生产总值所占比重在【NumericExpression(数值表达式)】文本框中输入计算表达式“a=第一产业/国内生产总值”。 Step04:完成操作•单击【OK(确定)】按钮,操作完成。此时,原数据文件新增加了“a”变量。 2.4.2变量重新赋值:空气质量等级划分SPSS的【Transform(转换)】菜单中有【RecodeintoSameVariable(重新编码为相同变量)】和【RecodeintoDifferentVariable(重新编码为不同变量)】两个命令可以实现重新赋值功能,它们分别表示重新赋值到同一变量或不同变量。下面以【RecodeintoDifferentVariable(重新编码为不同变量)】命令为例说明重新赋值功能。 1.SPSS操作详解•Step01:打开重新赋值对话框选择菜单栏中的【File(文件)】→【Transform(转换)】→【RecodeintoDifferentVariable(重新编码为不同变量)】命令,弹出如下图所示的对话框。 Step02:选择重新赋值变量和输出变量在候选变量列表框中选择要重新赋值的变量,将其移入【InputVariable->OutputVariable(输入变量->输出变量)】列表框中,同时在【OutputVariable(输出变量)】选项组中填写输出变量的名称【Name(名称)】及标签【Label(标签)】,单击【Change】按钮进行赋值转换。 Step03:设置重新赋值规则•【OldandNewValue】按钮被激活,单击此按钮,弹出如下图所示的对话框。 •Step04:选择样本赋值如果用户不是对所有的候选变量进行赋值,而是选择其中符合某些条件的变量值进行赋值操作,此时需要单击【If】按钮进行操作。按照具体要求指定观察量的选择条件进行操作。•Step05:最后单击【OK】按钮,此时操作结束。 2.实例内容:空气质量等级的划分•下图是我国部分城市2005年空气质量的指标数据(见数据文件2-11.sav),请利用这个规则对不同城市的空气质量等级进行划分。 Step01:打开对话框 Step02:选择重新赋值变量和输出变量•在左侧的候选变量列表框中选择“天数”变量进入【InputVariable->OutputVariable(输入变量->输出变量)】列表框,同时在【OutputVariable(输出变量)】文本框中,填写输出赋值变量名称“等级天数”,同时单击【Change】按钮进行赋值转换。进行上述操作后,单击【OldandNewValue】按钮。 Step03:设置赋值规则 Step04:完成操作 2.4.3变量值计数:消费价格指数的上涨项目•数据分析中,常常需要计算一些变量在同一个观测量中满足要求的特定变量值出现的次数。例如在进行产品市场调查时,要了解在所有的调查客户中有多少人使用过该产品,这就可以采用变量值计数功能来实现。 1.SPSS操作详解•Step01:打开重新赋值对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Transform(转换)】→【CountValueswithinCases(对个案内的值计数)】命令,弹出【CountOccurrencesofValueswithinCases(计算个案内值的出现次数)】对话框。 •Step02:输入目标计数变量在【TargetVariable(目标变量)】文本框中输入需要计数的变量名称,同时在【TargetLabel(目标标签)】文本框中填写计数变量的标签,便于注释说明。•Step03:选择计数变量在左侧的候选变量列表框中选择计数变量,将其移入右侧的【Variables(变量)】列表框中。需要注意,凡移入该列表框的变量必须具有相同的类型,当移入变量为数值型变量时,该栏标题改为“NumberVariables”;当移入变量为字符型变量时,标题改为“StringVariables”。 Step04:设置计数规则•进行上述操作后,【DefineValues】按钮被激活,单击此按钮,弹出如下图所示的对话框。 •Step05:选择样本计数如果用户不是对所有的候选变量进行计数,而是选择其中符合某些条件的变量值才进行计数操作,此时需要单击【If】按钮,按照具体要求指定观察量的选择条件进行操作。Step06:最后单击【OK】按钮,此时操作结束。 2.实例内容:消费价格指数的上涨项目•我国城市和农村居民消费价格分类指数数据见数据文件2-12.sav。由于不同产品的价格涨跌不同,请找出城市和农村居民消费价格指数都较去年上涨超过1%的项目。 Step01:打开对话框 Step02:输入目标计算变量•在【TargetVariable(目标变量)】文本框中输入需要计数的变量名称“x”,同时在【TargetLabel(目标标签)】文本框中填写标签“增加率”。 Step03:选择计数变量 Step04:设置计数规则 Step05:完成操作 2.4.4观测量求秩:对外直接投资净额•“秩”(Rank)是数据整理中的重要概念,前面讲解的观测量排序是按照大小顺序重新排列观测量,而观测量求秩是指对观测量排序后指定的“名次”。例如,观测量的值依次为3、5、-2、0、7,它们按小到大排列后为-2、0、3、5、7,各观测量的秩等于3、4、1、2、5。 1.SPSS操作详解•Step01:打开观测量求秩对话框打开SPSS软件,选择菜单栏中的【File(文件)】→【Transform(转换)】→【RankCases(个案排秩)】命令,弹出【RankCases(个案排秩)】对话框。 •Step02:选择求秩变量在左侧的候选列表框中选择求秩变量,将其移入【Variable(s)(变量)】,此时系统会产生一个新的秩变量,它是在该变量的前面添加“r”而构成。•Step03:选择求秩顺序【AssignRank1to(将秩1指定给)】选项组用于指定求秩顺序。•Step04:选择分组变量在左侧的候选变量列表框中选择分组变量,将其移入【By(排序标准)】列表框,此时SPSS会按所选的分组变量来求秩,如果不设定本选项,将对所有的观测量排秩。 •Step05:选择汇总表输出勾选【Displaysummarytables(显示摘要表)】复选框,系统将在输出窗口中显示概况原变量和新变量的摘要信息表。•Step06:秩类型选择单击【RankTypes】按钮,在弹出的对话框中可以选择秩的类型。 •Step07:Ties(结)类型选择单击【Ties】按钮,在弹出的对话框中用户可以选择结类型。Step08:最后单击主对话框中的【OK】按钮,此时操作结束。 2.实例内容:对外直接投资净额分析•2005年我国对主要国家(地区)对外直接投资金额(非金融类)的原始数据见数据文件2-13.sav,请按照区域类型不同对投资净额排秩。 Step01:打开对话框 Step02:选择求秩变量 Step03:选择分组变量•在左侧的候选变量列表框中选择分组变量“区域”,将其移入【By(排序标准)】列表框,此时SPSS会按它进行分组求秩。 Step04:选择求秩顺序 Step05:完成操作 第3章SPSS描述性统计分析 统计分析的目的是研究总体的数量特征。为实现上述分析,往往采用两种方式实现:第一,数值计算,即计算常用的基本统计量的值,通过数值来准确反映数据的基本统计特征;第二,图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点。通常,这两种方式都是混合使用的。 SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在【DescriptiveStatistics】菜单中。最常用的是列在最前面的四个过程。●Frequencies:产生频数表。●Descriptives:进行基本的统计描述分析。●Explore:探索性分析。●Crosstabs:列联表分析。 3.1SPSS在频数分析中的应用3.1.1频数分析的基本原理1.使用目的频数分布表是描述性统计中最常用的方法之一。它主要能够了解变量取值的状况,对把握数据分布特征非常有用。例如,了解某班学生考试的学习成绩、了解某地区居民的收入水平等都可以借助于频数分析。 2.软件使用方法Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值以及常用的条图、饼图等统计图。同时,SPSS的频数分析还可以进行分位数、描述集中趋势的基本统计量等计算功能。这些统计量的具体分析会在以后章节中讲解。 3.Bootstrap方法(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。(2)根据抽出的样本计算给定的统计量T。(3)重复上述N次(一般大于1000),得到N个统计量T。(4)计算上述N个统计量T的样本值,最终得到统计量的估计值。 3.1.2频数分析的SPSS操作详解Step01:打开主窗口选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Frequencies(频率)】命令,弹出【Frequencies(频率)】对话框,这是频数分析的主操作窗口。 Step01:打开主窗口 Step02:选择分析变量在【Frequencies(频率)】对话框的左侧的候选变量列表框中,选取一个或多个待分析变量,将它们移入右侧的【Variable(s)(变量)】列表框中。 Step03:输出频数分析表勾选【Displayfrequencytables(显示频率表格)】复选框,输出频数分析表。 Step04:其他基本统计分析•在对话框中还可以单击【Statistics(统计量)】和【Chars(图表)】等按钮。这些选项提供了丰富的统计输出结果。单击【Statistics】按钮,在弹出的对话框中可以设置输出各类基本统计量结果。 单击【Charts】按钮,在弹出的对话框中设置输出图形结果。 Step05:输出格式选择单击【Format】按钮,在弹出的对话框中设置频数表输出的格式。 Step06:相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●支持均值、标准差、方差、中位数、偏度、峰度和百分位数的Bootstrap估计。●支持百分比的Bootstrap估计。 Step07:完成操作单击【OK】按钮,结束操作,SPSS软件自动输出结果。 3.1.3实例图文分析:产品的销售量假设某公司每周大约卖出2000万件产品,但市场的需求不稳定,该公司的生产经理想更好的掌握近期该产品的分布情况。假设下面给出的销售数字(单位:百万)代表近期公司该产品每周的销售数据。利用频数分析你能得到什么有助于生产及销售的的信息?2418182624231618212021241919142221262715191720201922231623211519212022152419 Step01:打开对话框 Step02:选择分析变量 Step03:选择输出统计量 Step04:选择输出图形类型 Step05:完成操作(1)基本统计结果输出频数分析基本统计结果Valid38NMissing0Percentiles2518.005020.007523.00 (2)频数分析表输出表3-2频数分析表频数分析表FrequencyPercentValidPercentCumulativePercentValid1412.62.62.61537.97.910.51625.35.315.81712.62.618.41837.97.926.319615.815.842.120410.510.552.621513.213.265.82237.97.973.72337.97.981.624410.510.592.12625.35.397.42712.62.6100.0Tota38100.0100.0l (3)直方图 3.2SPSS在描述统计分析中的应用3.2.1描述统计分析的基本原理1.使用目的2.刻画集中趋势的描述统计量3.刻画离散程度的描述统计量4.刻画分布形态的描述统计量 3.2.2描述统计分析的SPSS操作详解Descriptives过程是连续资料统计描述应用最多的一个过程,它可对变量进行描述性统计分析计算,并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能,就是可将原始数据转换成标准化值,并以变量的形式保存。 Step01:打开主窗口选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Descriptives(描述)】命令,弹出【Descriptives(描述)】对话框,该对话框是描述性统计分析的主操作窗口。 Step02:选择分析变量在左侧的候选变量列表框中选取一个或多个待分析变量,将它们移入右侧的【Variable(s)(变量)】列表框中。 Step03:计算基本描述性统计量单击【Options】按钮,弹出【Options(选择)】对话框,该对话框用于指定输出的描述性统计量。这些统计量的含义是:均数(Mean)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误差(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis)。 Step04:保存标准化变量勾选【Savestandardizedvaluesasvariables(保存标准化变量值)】复选框。 Step05:相关统计量的Bootstrap估计单击【Bootstrap】按钮,弹出【Bootstrap】对话框,可以进行均值、标准差、方差、偏度和峰度的Bootstrap估计。 Step06:完成操作单击【OK】按钮,结束操作,SPSS软件自动输出结果。 3.2.3实例图文分析:奥斯卡获奖者的年龄请你分析不同性别演员获得奥斯卡奖的年龄差异性。男演员:323736325153336135455539763742403260385648484043624342444156394631474560女演员:504435802628412161384933743033413135414237263434352661603424303731273934 Step01:打开对话框 Step02:选择分析变量 Step03:选择输出描述性统计量 Step04:完成操作单击【OK】按钮,操作完成。 实例结果及分析 3.3SPSS在探索性分析中的应用3.3.1探索性分析的基本原理1.使用目的探索性数据分析(ExplorataryDataAnalysis,简称EDA)的基本思想是从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探讨数据分布的大致情况,也可以为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。 2.主要内容一般来说,进行探索性分析主要考察以下内容。(1)检查数据是否有错。过大或过小的数据均可能是异常值、影响点或错误值。要检查这样的数据,并分析原因,然后决定是否从分析中剔除这些数据。(2)获得数据分布特征。很多统计方法模型对数据的分布有要求,如方差分析就需要数据服从正态分布。(3)对数据的初步观察,发现一些内在规律。 3.3.2探索性分析的SPSS操作详解SPSS中的Explore过程用于计算指定变量的探索性统计量和有关的图形。它既可以对观测量整体分析,也可以进行分组分析。从这个过程可以获得箱线图、茎叶图、直方图、各种正态检验图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据进行变换,并表明和检验连续变量的数值分布情况。 Step01打开主窗口选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Explore(探索)】命令,弹出【Explore(探索)】对话框,该对话框是探索性分析的主操作窗口。 Step02选择分析变量在【Explore(探索)】对话框左侧的【候选变量】清单中,选取一个或多个待分析变量,将它们移入右侧的【DependentList(因变量列表)】列表框中,表示要进行探索性分析的变量。 Step03选取分组变量在【Explore(探索)】对话框的候选变量列表框中,可以选取一个或多个分组变量,将它们移入右侧的【FactorList(因子列表)】列表框中。分组变量的选择可以将数据按该变量中的观测值进行分组分析。如果选择的分组变量不止一个,那么会以分组变量的不同取值进行组合分组。 Step04选择标签值从候选变量列表框中选择一个变量作为标识变量,并将其移入【LabelCasesby(标注个案)】列表框中。选择标识变量的作用在于,若系统在数据探索时发现异常值,便可利用标识变量加以标记,便于用户找这些异常值。如果不选择它,系统默认以id变量作为标识变量。 Step05选择输出类型在【Explore(探索)】对话框下面的【Display】选项组中可以选择输出项。●Both:输出图形以及描述性统计量。●Statistics:只输出描述统计量。选择此项后激活【Statistics】功能按钮。●Plots:只输出图形。选择此项后激活【Plots】功能按钮。 Step06描述性统计量结果输出在【Explore(探索)】对话框中还可以单击【Statistics】按钮,弹出【Explore:Statistics】对话框,该对话框中提供了各类基本描述性统计输出结果。 Step07统计图形结果输出在【Explore(探索)】对话框中还可以单击【Plots】按钮,弹出【Explore:Plots】对话框。该对话框中提供了图形输出的类型。 Step08选择缺失值的处理方式在【Explore(探索)】对话框中还可以单击【Options】按钮,在弹出的对话框中确定对待缺失值的方式。 Step09相关统计量的Bootstrap估计单击【Bootstrap】按钮,弹出【Bootstrap】对话框,可以进行如下统计量的Bootstrap估计。●支持均值、5%切尾均值、标准差、方差、中位数、偏度、峰度和内距的Bootstrap估计。●M估计量表支持Huber的M估计量、Tukey的双权重、Hampel的M估计量和Andrew的Wave的Bootstrap估计。●百分位数表支持百分位数的Bootstrap估计 Step10:操作完成单击【OK】按钮,结束操作,SPSS软件自动输出结果。 3.3.3实例图文分析:中国南北城市的温度差异 Step01:打开对话框打开数据文件3-3.sav,其中增加变量“地域”表示所在城市的区域位置,“1”表示南方城市,“2”表示北方城市。选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Explore(探索)】命令,弹出【Explore(探索)】对话框。 Step02:选择分析变量在候选变量列表框中将变量“年平均温度”添加至【DependentList(因变量列表)】列表框中,表示它是进行探索性分析的变量。 Step03:选择分组变量将变量“地域”添加至【FactorList(因子列表)】列表框中,表示根据地域位置不同来进行数据分析。 Step04:选择标签值选择变量“城市”移入【LabelCasesby(标注个案)】列表框作为标识变量。 Step05:选择输出描述性统计量单击【Statistics】按钮,在弹出的对话框中勾选【M-estimators(M估计值)】复选框,分析样本数据的稳健性。其他选项保持SPSS默认状态。单击【Continue】按钮,返回【Explore(探索)】对话框。 Step06:完成操作最后,单击【OK】按钮,操作完成。 3实例结果及分析(1)基本统计信息汇总基本统计信息Cases地ValidMissingTotal域PercePercePerceNNNntntnt南100.0100.0160.0%16年平均方%%气温北100.0100.0170.0%17方%% 表3-6描述性统计量表(2)描述性统计量表 (3)M估计量M估计量结果表Hampel'sHuber'sM-Tukey'sAndrews'地域M-EstimatEstimatoraBiweightbWavedorc南方18.069417.720817.977617.7182年平均气温北方11.207511.170611.174111.1696a.权数取值为1.339.b.权数取值为4.685.c.权数取值分别为1.700,3.400,and8.500d.权数取值为1.340*pi. (4)茎叶图探索性分析的茎叶图年平均气温Stem-and-LeafPlo年平均气温Stem-and-LeafPlotfortfor地域=南方地域=北方FrequencyStem&LeafFrequencyStem&Leaf1.001.46.000.56688911.001.667777778898.001.001133343.002.0123.001.5551.00Extremes(>=25)Stemwidth:10.0Stemwidth:10.0Eachleaf:1case(s)Eachleaf:1case(s) (5)箱图 3.4SPSS在列联表分析中的应用3.4.1列联表分析的基本原理1.使用目的列联表是指一个频率对应两个变量的表(一个变量用来对行分类,第二个变量用来对列分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存在一定的相关性进行分析。 2.交叉列联表 3.行列变量间关系的分析列联表的频数分布不可能用来直接确定行、列变量之间的关系及关系的强弱。令人感兴趣的二维列联表的检验问题是行、列变量的独立性检验。独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、列变量之间是否彼此独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要求。 所以,一般采用的检验方法是卡方(χ2)检验,它的计算公式为:2ff20efe其中,f表示实际观察频数,f表示期望频数。0e 3.4.2列联表分析的SPSS操作详解Step01打开主窗口选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Crosstabs(列联表)】命令,弹出【Crosstabs(列联表)】对话框,这是列联表分析的主操作窗口。 Step02选择行、列变量在【Crosstabs(列联表)】对话框左侧的候选变量列表框中,选取一个或多个待分析变量,将它们移入右侧的【Row(s)(行)】列表框中,作为列联表的行变量。同理,选择若干候选变量移入右侧的【Column(s)(列)】列表框中,作为列联表的列变量。 Step03选择层变量如果要进行三维或多维列联表分析,可以根据需要选择控制变量进入【Layer(层)】列表框中。该变量决定列联表的层。如果要增加另外一个控制变量,首先单击【Next】按钮,再选入一个变量。单击【Previous】按钮,可以重新选择以前确定的变量。 Step04列联表输出格式的选择在【Crosstabs(列联表)】对话框下面有两个复选框,用来选择列联表的输出格式。●Displayclusteredbarcharts:显示各变量交叉分组下频数分布条形图。●Suppresstables:只输出统计量,而不输出列联表。 Step05行、列变量相关程度的度量在【Crosstabs(列联表)】对话框中单击【Statistics】按钮,在弹出的对话框中可以根据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出统计量,完成后单击【Continue】按钮,返回主对话框。 Step06选择列联表单元格的输出类型在【Crosstabs(列联表)】对话框中单击【Cell】按钮,在弹出的对话框中可以选择显示在列联表单元格中的统计量,包括观测数量、百分比和残差。在对话框中选择相应选项,完成后单击【Continue】按钮,返回主对话框。 Step07选择列联表单元格的输出排列顺序在【Crosstabs(列联表)】对话框中单击【Format】按钮,在弹出的对话框中可以选择各单元格的输出排列顺序。 Step08相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行统计量的Bootstrap估计。 Step09完成操作单击【OK】按钮,结束操作,SPSS软件自动输出结果。 3.4.3实例图文分析:大学生身体素质调查1.实例内容在一次上海大学生身体素质的实际调查中,选择了部分大专院校的学生进行实际问卷调查,收集的数据见3-4.sav。调查内容主要包括:性别、出生日期、身高、体重、血型、教育背景、学科、男女身高级别和男女体重级别等内容。请根据调查数据分析下面问题: (1)进行“性别”和“体重级别”双因素交叉作用下的列联表分析,并研究“性别”对“体重级别”有无显著性影响。(2)进行“教育背景”和“身高级别”双因素交叉作用下的列联表分析,并研究“教育背景”对“身高级别”有无显著性影响。 Step01:打开对话框打开数据文件3-4.sav。选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Crosstabs(列联表)】命令,弹出【Crosstabs(列联表)】对话框。 Step02:选择行、列变量•在候选变量列表框中将变量“性别(sex)”添加至【Row(s)(行)】列表框中,表示它是交叉列联表中的行变量;将变量“体重级别(wm)”添加至【Column(列)】列表框中,表示它是交叉列联表中的列变量。 Step03:独立性检验单击【Statistics】按钮,弹出【Crosstabs:Statistics(交叉表:统计量)】对话框,勾选【Chi-square(卡方)】复选框,利用卡方检验来检验“性别”和“体重级别”的独立性。单击【Continue】按钮,返回【Crosstabs(列联表)】对话框。 Step04:选择列联表输出格式由于要进行“性别”和“体重级别”的频数分析,因此单击【Cell】按钮,弹出【Crosstabs:CellDisplay】对话框,勾选【Percentages】选项组中的【Row(行)】、【Column(列)】和【Total(总数)】复选框。单击【Continue】按钮,返回【Crosstabs(列联表)】对话框。 Step05:输出分布条形图勾选【Displayclusteredbarcharts(显示复式条形图)】复选框,表示利用条形图来反映不同性别之间的体重级别差异。 Step06:完成操作最后,单击【OK】按钮,操作完成。 实例结果及分析(1)基本统计信息汇总基本统计信息汇总ValidMissingTotalPercePercePerceNNNntntnt性别*体重100.0100.021400.0%214级别%% 表3-10“性别*体重级别”列联表(2)“性别”和“体重级别”的列联表体重级别Total轻(60_)中等(60—70)重(70+)Count17351769%within性别24.6%50.7%24.6%100.0%男%within体重级别11.1%85.4%85.0%32.2%%ofTotal7.9%16.4%7.9%32.2%性别Count13663145%within性别93.8%4.1%2.1%100.0%女%within体重级别88.9%14.6%15.0%67.8%%ofTotal63.6%2.8%1.4%67.8%Count1534120214%within性别71.5%19.2%9.3%100.0%Total%within体重级别100.0%100.0%100.0%100.0%%ofTotal71.5%19.2%9.3%100.0% •(3)“性别”和“体重级别”的独立性检验卡方检验结果ValuedfAsymp.Sig.(2-sided)PearsonChi-Square109.715a20.000LikelihoodRatio111.29020.000Linear-by-LinearAssocia92.73910.000tionNofValidCases214 •(4)体重级别条形图 3.5SPSS在比率分析中的应用3.5.1比率分析的基本原理比率分析生成比率变量,并对该比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),进而刻画出比率变量的集中趋势和离散程度。除此之外,SPSS19.0还提供了其他对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴。 3.5.2比率分析的SPSS操作详解Step01:打开主窗口选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Ratio(比率)】命令,弹出【Ratio(比率)】对话框,这是比率分析的主操作窗口。 Step02:选择分子变量在左侧的候选变量列表框中选取一个分析变量作为比率分析的分子,将它移入右侧的【Numerator(分子)】列表框中。 Step03:选择分母变量在【RatioStatistics(比率统计量)】对话框左侧的候选变量列表框中选取一个分析变量作为比率分析的分母,将它移入右侧的【Denominator(分母)】列表框中。 Step04:选择分组变量在【RatioStatistics(比率统计量)】对话框左侧的候选变量列表框中选取一个变量作为分组变量,将它移入右侧的【GroupVariable(组变量)】列表框中。 Step05:结果显示选择在【RatioStatistics(比率统计量)】对话中,用户可以选择比率分析的结果输出类型。●Displayresult:系统默认选项,选择是否显示结果。●Saveresultstoexternalfile:选择是否将分析结果保存至外部文件。同时,外部文件的保存路径需要单击【File】按钮来选择。 Step06:选择描述性统计量输出单击【Statistics】按钮,弹出的【RatioStatistics:Statistics】对话框主要用于输出各类基本统计量结果。 Step07完成操作单击【OK】按钮,结束操作,SPSS软件自动输出结果。 3.5.3实例图文分析:城乡消费水平区域对比1.实例内容城乡居民消费水平 Step01:打开对话框打开SPSS软件,选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述性统计)】→【Ratio(比率)】命令,弹出【RatioStatistics(比率统计量)】对话框。 Step02:选择分子变量在【RatioStatistics(比率统计量)】对话框左侧的候选变量列表框中,选取变量“城镇居民”作为比率分析的分子,将它移入右侧的【Numerator(分子)】列表框中。 Step03:选择分母变量在【RatioStatistics(比率统计量)】对话框左侧的候选变量列表框中,选取变量“农村居民”作为比率分析的分母,将它移入右侧的【Denominator(分母)】列表框中。 Step04:选择分组变量在【RatioStatistics(比率统计量)】对话框左侧的候选变量列表框中,选取变量“区域”作为分组变量,将它移入右侧的【GroupVariable(组变量)】列表框中。 Step05:选择输出统计量单击【Statistics】按钮,在弹出的对话框中除了保留系统默认的输出统计量外,再勾选【Media(中位数)】、【Mean(均值)】和【ADD】复选框。最后单击【Continue】按钮,返回【RatioStatistics(比率统计量)】对话框。 2.实例结果及分析(1)样本统计结果输出样本统计结果表CountPercent区域华北519.2%东北311.5%华东519.2%华中311.5%西南519.2%西北519.2%Overall26100.0%Excluded0Total26 (2)比率分析结果表比率分析结果表CoefficientofVariationAverageAbsoluteDeviatiPriceRelatedCoefficientoMedianCentGroupMeanMedianonDifferentialfDispersionered华北2.9122.8870.2841.0470.09812.4%东北2.8662.8760.1351.0070.0477.0%华东2.6972.5740.3571.0750.13919.0%华中3.2073.2170.1551.0050.0487.2%西南4.3364.3310.8091.0410.18725.3%西北3.7953.8810.2441.0040.0638.6%Overall3.3433.2270.5651.0980.17525.4% 第4章SPSS的均值比较过程 SPSS主要有以下模块实现均值比较过程。●One-SampleTTest:单样本t检验。●Independent-SampleTTest:两个独立样本均值的t检验。●Paired-SampleTTest:两个配对样本均值的t检。 4.1SPSS在单样本t检验的应用•1.使用目的单样本t检验的目的是利用来自某总体的样本数据,推断该总体的均值是否与指定的检验值之间存在明显的差异。它是对总体均值的假设检验。 D2.基本原理单样本t检验作为假设检验的一种方法,其基本步骤和假设检验相同。其零假设为H0:总体均值与指定检验值之间不存在显著差异。该方法采用t检验方法,按照下式计算t统计量。DtSn式中,D是样本均值与检验值之差;因为总体方差未知,故用样本方差S代替总体方差;n为样本数。 3.概率P值如果概率P值小于或等于显著性水平,则拒绝零假设;如果概率P值大于显著性水平,则接受零假设。 4.软件使用方法(1)在SPSS中,软件将自动计算t值,由于该统计量服从n-1个自由度的t分布,SPSS将根据t分布表给出t值对应的相伴概率P值。(2)如果相伴概率P值小于或等于给定的显著性水平,则拒绝H0,认为总体均值与检验值之间存在显著差异。(3)相反,相伴概率值大于给定的显著性水平,则不应拒绝H0,可以认为总体均值与检验值之间不存在显著差异。 4.1.2单样本t检验的SPSS操作详解Step01:打开单样本t检验对话框。选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-SampleTTest(单样本T检验)】命令,弹出【One-SampleTTest(单样本T检验)】对话框。 Step02:选择检验变量。在该对话框左侧的候选变量列表框中选择一个或几个变量,将其移入【TestVariable(s)(检验变量)】列表框中。其中,左侧候选变量列表框中显示的是可以进行t检验的变量。 Step03:选择样本检验值。在【TestValue(检验值)】文本框中输入检验值,相当于假设检验问题中提出的零假设H:0μ=μ。0 Step04:其他选项设置。单击【Options】按钮,弹出【One-SampleTTest:Options(单样本T检验:选择)】对话框。该对话框用于指定输出内容和关于缺失值的处理方法,其中各选项的含义如下。ConfidenceInterval:该文本框用于设置在指定水平下,样本均值与指定的检验值之差的置信区间,默认值为95%。 【MissingValues(缺失值)】选项组:用于设置缺失值的处理方式,它有以下两种处理方式。•Excludecasesanalysisbyanalysis:点选该单选钮,表示当分析计算涉及到含有缺失值的变量时,删除该变量上是缺失值的观测量。•Excludecaseslistwise:点选该单选钮,表示删除所有含缺失值的观测量后再进行分析。 Step05:相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●支持均值和标准差的Bootstrap估计。●支持平均值差值的Bootstrap估计和显著性检验。 Step06:单击【OK】按钮结束操作,SPSS软件自动输出结果。 4.1.3实例图文分析:交通通勤时间1.实例内容根据一份公共交通调查报告显示,对于那些在一个城市乘车上下班的人来说,平均通勤时间为19分钟,其人数总量为100万—300万。假设一个研究者居住在一个人口为240万的城市里,想通过验证以确定通勤时间是否和其他城市平均水平是否一致。他随机选取了26名通勤者作为样本,收集的数据如下所示。假设通勤时间服从正态分布,这位研究者能得到什么结论?1916202323241319231617151427172318182018181823191928 2实例操作现在该名研究者要检验他所在城市的平均通勤时间和全国其他城市平均水平是否一致。由于题目中已给出了其他城市通勤时间的平均水平为19分钟,因此,这里就是要检验该城市通勤时间是否等于19分钟,即进行如下假设检验:Ht0:19;Ht1:19 Step01:打开对话框打开数据文件4-1.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-SampleTTest(单样本T检验)】命令,弹出【One-SampleTTest(单样本T检验)】对话框。 Step02:选择检验变量在候选变量列表框中选择“time”变量,将其添加至【TestVariables(检验变量)】列表框中。 Step03:选择样本检验值在【TestValue(检验值)】文本框中输入检验值“19”。 Step04:设置显著性水平单击【Options】按钮,在弹出的对话框的【ConfidenceIntervalPercentage(置信区间百分比)】文本框中将系统默认的95%修改为99%,其目的是调整显著性水平。单击【Continue】按钮返回主对话框。提示:如果不选择Options按钮,表示默认系统选项参数设置。 Step05:结束操作单击OK按钮,完成操作。此时,软件输出结果出现在结果浏览窗口中。 3.实例结果及分析(1)描述性统计分析表Std.DevStd.ErrorMeaNMeaniationn通勤19.53263.75479.73638时间85 (2)单样本t检验结果TestValue=1999%ConfidenceIntervaloftheDifferenceSig.(2-MeanDiftdftailed)ferenceLowerUpper通勤.73125.471.53846-1.51412.5911时间 4.1.4实例进阶分析:机票的折扣费1.实例内容1995年2月,某个航班往返机票的平均折扣费是258美元(《今日美国》,1995年3月30日)。随机抽取了在3月份中15个往返机票的折扣费作为一个简单随机样本,结果得到下面的数据:310260265255300310230250265280290240285250260请你检验3月份往返机票的折扣费是否有所增加? 2实例操作由于3月份机票的平均折扣费是258美元,而现在调查抽取了15个数据,可以计算得到它们的样本均值(Mean)等于270美元。从数值大小看到明显折扣费用H:0增加了。但是,这种数值的增加是由实际情况变动H:1还是抽样误差造成的,则可以通过单样本的t检验来验证。这里建立如下假设检验:Hprice0:258;Hprice1:258 由于单样本t检验要求样本数据服从正态分布,因此进行单表4-3One-SampleK-STest样本的K-S检验,得到检验分析表。从检验结果看到,统计量Z等于0.697,相伴概率P等于0.716,远大于显著性水平,因此接受零假设,认为该数据服从正态分布,可以利用单样本t检验方法。具体操作步骤如下。机票折扣费N15NormalParametersaMean270.00Std.Deviation24.785MostExtremeDifferencesAbsolute.180Positive.180Negative-.087Kolmogorov-SmirnovZ.697Asymp.Sig.(2-tailed).716 Step01打开数据文件4-2.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-SampleTTest(单样本T检验)】命令,弹出【One-SampleTTest(单样本T检验)】对话框。 Step02在候选变量列表框中选择“pirce”变量,将其添加至【TestVariables(检验变量)】列表框中。 Step03在【TestValue(检验值)】文本框中输入检验值“258”。 Step04单击【OK】按钮,完成操作。 3.实例结果及分析下表所示为单样本t检验的分析结果,表格中各项的含义前面已经详细讲解了。由于这里双侧概率P值0.082略大于显著性水平0.05,因此接受零假设,认为3月份往返机票的折扣费没有变化。单样本t检验分析结果TestValue=25895%ConfidenceIntervaloftheDifferenceSig.(2-MeanDitdftailed)fferenceLowerUpper机票1.87折扣14.08212.000-1.7325.735费 4.2SPSS在两独立样本t检验的应用4.2.2两独立样本t检验的SPSS操作步骤Step01:打开两独立样本t检验对话框。选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Independent-SamplesTTest(独立样本T检验)】命令,弹出【Independent-SamplesTTest(独立样本T检验)】对话框。 Step02:选择检验变量•在左侧的候选变量列表框中选择检验变量,将其移入【TestVariable(s)(检验变量)】列表框中,这里需要选入待检验的变量。 Step03:选择分组变量在左侧的候选变量列表框中选择分组变量,将其移入【GroupingVariable(分组变量)】文本框中,目的是区分检验变量的不同组别。 Step04定义组别名称单击【DefineGroups】按钮,弹出【DefineGroups(定义组)】对话框,此时需要定义进行t检验的比较组别名称。该对话框中各选项的含义如下。Usespecifiedvalues:分别输入两个对应不同总体的变量值。Cutpoint:用于定义分割点值。在该文本框中输入一个数字,大于等于该数值的对应一个总体,小于该值的对应另一个总体。 在该对话框中设置完成后,单击【Continue】按钮,返回【Independent-SamplesTTest(独立样本T检验)】对话框。 Step05:相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。•支持均值和标准差的Bootstrap估计。•支持平均值差值的Bootstrap估计和显著性检验。 Step06单击【OK】按钮,结束操作,SPSS软件自动输出相关结果。 4.2.3实例图文分析:机场等级分数比较1.实例内容国际航空运输协会(TheInternationalAirTransportAssociation)对商务旅游人员进行了一项调查,以便确定多个国际机场的等级分数。最高可能分数是10分,分数越高说明其等级也越高。假设有一个由50名商务旅行人员组成的简单随机样本,要求这些人给迈阿密机场打分。另外有一个由50名商务旅行人员组成的样本,要求这些人给洛杉矶机场打分。这两个组人员打出的等级分数如表4-5所示。请你判断迈阿密机场和洛杉矶机场的等级评分是否相同? 表4-5两组人员打出的等级分数 2实例操作本案例中共有两组商务旅行人员分别对迈阿密和洛杉矶机场打分。由于这两组人员构成不同,因此由这两组人员组成的样本可以看作是相互独立的。现在要比较这两个机场的平均得分是否相同,也就是要检验这两个独立样本的均值是否相同,因此可以采用两独立样本t检验的方法。于是建立如下假设检验:H:迈阿密机场和洛杉矶机场的等级得分相同。0H:迈阿密机场和洛杉矶机场的等级得分不同。1 Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Independent-SampleTTest(独立样本T检验)】命令,弹出【Independent-SampleTTest(独立样本T检验)】对话框,。这里变量score表示两个机场的得分;变量x是不同机场的标志变量,1表示迈阿密机场,2表示洛杉矶机场。 Step02:选择检验变量在左侧的候选变量列表框中选择检验变量“score”,将其添加至右侧的【TestVariable(s)(检验变量)】列表框中,表示需要对它进行独立样本的T检验。 Step03:选择分组变量在左侧的候选变量列表框中选择分组变量“x”,将其添加至【GroupingVariable(s)(组变量)】文本框中。接着单击【DefineGroups】按钮,弹出【DefineGroup(定义组)】对话框。提示:如果不单击【Options】按钮,表示默认系统选项参数设置。 Step04:定义组别名称点选【Usespecifiedvalues(使用指定值)】单选钮,在【Group1(组1)】文本框中输入“1”,在【Group2(组2)】文本框中输入“2”。输入完成后,单击【Continue】按钮返回。 Step05:完成操作单击【OK】按钮,完成操作。此时,软件输出结果出现在结果浏览窗口中。 3.实例结果及分析(1)基本统计信息汇总表 (2)独立两样本的t检验分析结果①两总体方差是否相等的F检验这里,该检验的F统计量的观察值为0.086,对应的概率P值为0.770。由于系统默认显著性水平α为0.05,而概率P值显然大于0.05,因此认为两总体的方差无显著性差异。 ②两总体均值的检验在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equalvariancesassumed列的t检验相伴概率值;如果方差不相等,观察Equalvariancesnotassumed列的t检验相伴概率值。本案例的第一步分析中,由于两总体方差无显著差异,因此应看第一列(Equalvarianceassumed)的t检验结果。具体来说,t统计量的观测值为-0.924,对应的双尾概率P值为0.358,大于显著性水平0.05,因此认为两总体的均值不存在显著差异,即迈阿密机场和洛杉矶机场的等级得分相同。这个结论说明商务人员认为两个机场在服务水平质量等方面是没有差异的。 4.2.4实例进阶分析:考试中的惊惶失措•1.实例内容许多学生都有一次考试中因为第一道题目特别难而惊惶失措的不愉快经历。人们对考试题目的安排进行了研究,以弄清它对焦虑的影响。表4-8所示的分数是对“测验焦虑”的度量,有充分的证据支持考试题目的安排对分数有影响这一假设吗? 2实例操作•表4-8列出了两种考试方式下不同学生的焦虑测量值,其值越大,说明学生考试时越焦虑。现在要研究考试题目对分数的影响性,即比较这两种考试形式对学生有无显著的焦虑差异性。考虑到选取的学生不同,因此可以利用两独立样本的t检验,建立假设检验如下。H:两种考试方式下学生的平均焦虑测量值相0同。H:两种考试方式下学生的平均焦虑测量值不1同。 Step01建立数据文件4-4.sav。这里变量anxiety表示两个机场的得分;变量x表示不同的考试方式,1表示问题从易到难安排,2表示各问题从难到易安排。 Step02选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Independent-SampleTTest(独立样本T检验)】命令,弹出【Independent-SampleTTest(独立样本T检验)】对话框。 Step03•在左侧的候选变量列表框中选择检验变量anxiety,将其添加至【TestVariable(s)(检验变量)】列表框中。 Step04选择分组变量x,将其添加至【GroupingVariable(s)(分组变量)】文本框中。 Step05单击【DefineGroups】按钮,弹出【DefineGroup(定义组)】对话框。点选【Usespecifiedvalues】单选钮,在【Group1(组1)】文本框中输入“1”,在【Group2(组2)】文本框中输入“2”。输入完成后,单击【Continue】按钮,关闭【DefineGroup(定义组)】对话框。 Step06单击【OK】按钮,结束操作。 3.实例结果及分析(1)基本统计信息汇总表不同考试形Std.DeviStd.Erro式NMeanationrMean焦虑测问题从易到27.07256.869881.37398量值难安排52问题从难到31.72164.260151.06504易安排81 ②两总体均值的检验在首先进行的方差相等假设检验中,F统计量等于1.986,对应的概率P值为0.167,大于显著性水平0.05,因此认为两组数据的方差是相等的。于是接着观察“Equalvarianceassumed”列所对应的t检验结果。由于t统计量对应的双尾概率P值为0.020,小于显著性水平0.05,因此认为两总体的均值存在着统计意义下的显著性差异。所以,问题“从易到难”和“从难到易”两种方式的题目设置安排,对学生考试产生了显著的焦虑影响,其平均焦虑值从27.0752上升至31.7281。所以,出题人在设置试卷考试难度的分配时,要予以充分的考虑。 4.3SPSS在两配对样本t检验的应用4.3.1两配对样本t检验的基本原理1.使用目的前一节中考虑的是独立样本情形下的总体均值相等的检验问题。但在现实中,总体或样本之间不仅仅表现为独立的关系,很多情况下,总体之间存在着一定的相关性。当分析这些相关总体之间的均值关系时,就涉及到两配对样本的t检验。 2.基本原理两配对样本t检验的目的是利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异。它和独立样本t检验的差别就在于要求样本是配对的。由于配对样本在抽样时不是相互独立的,而是相互关联的,因此在进行统计分析时必须要考虑到这种相关性,否则会浪费大量的统计信息,因此对于符合配对情况的统计问题,要首先考虑两配对样本t检验。配对样本主要包括下列一些情况。 (1)同一实验对象处理前后的数据。例如对患肝病的病人实施某种药物治疗后,检验病人在服药前后的差异性。(2)同一实验对象两个部位的数据。例如研究汽车左右轮胎耐磨性有无显著差异。(3)同一样品用两种方法检验的结果。例如对人造纤维在60度和80度的水中分别作实验,检验温度对这种材料缩水率的影响性。(4)配对的两个实验对象分别接受不同处理后的数据。例如对双胞胎兄弟实施不同的教育方案,检验他们在学习能力上的差异性。 3.使用条件进行配对样本检验时,通常要满足以下三个要求。(1)两组样本的样本容量要相同;(2)两组样本的观察值顺序不能随意调换,要保持一一对应关系;(3)样本来自的总体要服从正态分布。 两配对样本t检验的基本思路是求出每对数据的差值:如果配对样本没有差异,则差值的总体均值应该等于零,从该总体中抽取的样本均值也应该在零值附近波动;反之,如果配对样本有差异,差值的均值就该远离零值。这样,通过检验该差值样本的均值是否等于零,就可以判断这两组配对样本有无差异性。该检验对应的假设检验如下。H:两总体均值之间不存在显著差异。0H:两总体均值之间存在显著性差异。1检验中所采用的统计量和单样本t检验完全相同 4.3.2两配对样本t检验的SPSS操作详解Step01:打开两配对样本t检验对话框选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Paired-SamplesTTest(配对样本T检验)】命令,弹出【Paired-SamplesTTest(配对样本T检验)】对话框。 Step02:选择配对变量在【Paired-SampleTTest(配对样本T检验)】对话框左侧的候选变量列表框中选择一对或几对变量,将其移入【PairedVariables(成对变量)】列表框中,这表示系统将对移入的成对变量进行配对检验。 Step03:其他选项选择单击【Options】按钮,弹出【Paired-SamplesTTest:Options(配对样本T检验:选择)】对话框。该对话框用于指定输出内容和关于缺失值的处理方法,其中各选项的含义如下。ConfidenceInterval:用于设置在指定水平下样本均值与指定的检验值之差的置信区间,默认值为95%。【MissingValues(缺失值)】选项组:用于设置缺失值的处理方式,它有以下两种处理方式。Excludecasesanalysisbyanalysis:点选该单选钮,表示当分析计算涉及到含有缺失值的变量时,删除该变量上是缺失值的观测量。Excludecaseslistwise:点选该单选钮,表示删除所有含缺失值的观测量后再进行分析。 Step04相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。•支持均值和标准差的Bootstrap估计。•支持相关性的Bootstrap估计。•检验表支持均值的Bootstrap估计。 Step05单击图【OK】按钮,结束操作,SPSS软件自动输出结果。 4.3.3实例图文分析:看电视和读书的时间1.实例内容“每月读书俱乐部”的成员进行了一项调查,以确信其成员用于看电视的时间是否比读书的时间多。假定抽取了15个人组成的样本,得到了下列有关他们每周观看电视的小时数和每周读书时间的小时数的数据,见表4-11所示。你能够得到结论:“每月读书俱乐部”的成员每周观看电视的时间比读书的时间更多吗? 2.实例操作由于读书俱乐部的成员每人在每周可能既要看电视也要读书,因此要分析看电视和读书时间差异性,其实就是进行如下假设检验。H:俱乐部成员看电视和读书所消耗的时间相0同。H:俱乐部成员看电视和读书所消耗的时间不1同。由于抽样数据中,样本都进行了看电视和读书两个方面的时间调查,它们的活动主体都是同一个人,因此,数据类型属于配对样本的类型,故利用配对样本t检验来分析。具体操作步骤如下。 Step01:打开对话框打开数据文件4-5.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Paired-SampleTTest(配对样本T检验)】命令,弹出【Paired-SampleTTest(配对样本T检验)】对话框。这里变量“tv”表示成员每周看电视的时间;变量“book”表示成员每周读书的时间。 Step02:选择配对变量在左侧的候选变量列表框中依次选择检验变量“tv”和变量“book”,将其添加至【PairedVariable(s)(成对变量)】列表框中。这表示进行“tv”和“book”的配对t检验。 Step03:完成操作单击【OK】按钮,完成操作。此时,软件输出结果出现在结果浏览窗口中。 3.实例结果及分析(1)基本统计信息汇总表Std.DeviatStd.ErrorMeanNionMeanPair1看电视12.00154.5361.171小时数看书小9.00153.586.926时数 (2)相关性分析表4-13是进行两配对变量之间简单相关性分析结果输出表。表中第三列表示样本容量,第四列表示看电视时间和看书时间的简单相关系数,第五列表示概率P值。从结果来看,“tv”和“book”变量的相关系数等于0.193,呈简单正相关关系;同时相伴概率P值0.490大于显著性水平0.05说明这两组样本相关性显著。 (3)两配对样本t检验结果表PairedDifferencesSig.95%ConfidenceIntervtdf(2-taStd.DeStd.ErroaloftheDifferenceMeaniled)viationrMeanLowerUpperPair1看电视小时35.211.345.1155.8852.2314.043数-看书小时数 4.3.4实例进阶分析:亚洲金融危机的影响1.实例内容在1997年,亚洲许多国家爆发了大规模的金融危机,致使许多国家的经济发展停滞不前。投资商预言:亚洲经济的低迷对1997年第四季度美国公司的收益造成负面影响。下面的样本数据表4-15显示了部分美国公司在1996年第四季度和1997年第四季度的每股收益(《华尔街日报》,1998年1月28日)。你能根据数据判断投资商的预言吗? 2.实例操作表4-15列出了美国公司在亚洲金融危机爆发前后第四季度的每股收益。如果亚洲金融危机对美国公司产生显著影响,那么这两组数据的均值就应该存在显著差异性。由于每组数据是同一公司在1996年和1997年第四季度的收益,因此本案例也属于两配对样本的t检验问题。因此,进行如下假设检验。H:美国公司在1996年和1997年第四季度的收益没有0显著差异,即亚洲金融危机对美国公司收益没有造成影响。H:美国公司在1996年和1997年第四季度的收益存在1显著差异,即亚洲金融危机对美国公司收益造成明显影响。具体操作步骤如下。 Step01打开数据文件4-6.sav。这里变量“x”表示1996年美国公司的收益;变量“y”表示1997年美国公司的收益。 Step02选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Paired-SampleTTest(配对样本T检验)】命令,弹出【Paired-SampleTTest(配对样本T检验)】对话框。 Step03在左侧的候选变量列表框中依次选择检验变量“x”和变量“y”,将其添加至【PairedVariable(s)(成对变量)】列表框中,进行“x”和“y”变量的配对t检验。 Step04单击【Paired-SampleTTest(配对样本T检验)】对话框中的【OK】按钮,结束操作 3.实例结果及分析(1)基本统计信息汇总表 (2)相关性分析表4-17是1996年收益和1997年收益的简单相关性分析结果输出表。从结果来看,“x”和“y”变量的相关系数等于0.825,呈高度正相关关系;同时相伴概率P值0.000进一步说明这两组样本相关性显著。 (3)两配对样本t检验结果表 第5章SPSS的方差分析 5.1方差分述析概5.1.1方差分析的概念在第4章中我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是H0:否相同,可以对零假设进行检验。但有时销售方式有1234很多种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。 表5-1某公司产品销售方式所对应的销售量序号12345水平均值销售方式方式一778681888383方式二959278968990方式三717668817474方式四808479708279总均值81.5 方差分析中有以下几个重要概念。(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。(3)单元(Cell):指因素水平之间的组合。(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。 5.1.2方差分析的基本思想在表5-1中,要研究不同推销方式的效果,其实就归结为一个检验问题,设为第i(i=1,2,3,4)种推销方式的平均销售量,即检验原假设是否为真。从数值上H:01234观察,四个均值都不相等,方式二的销售量明显较大。从表5-1可以看到,20个数据各不相同,这种差异可能是由以下两方面的原因引起的。一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动。这种由不同水平造成的差异,称之为系统性差异。 二是随机因素的影响。同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称之为随机性差异。两个方面产生的差异用两个方差来计量:34一是变量之间的总体差异,即水平之间的方差。12二是水平内部的方差。前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。 5.1.3方差分析的基本假设(1)各样本的独立性。即各组观察数据,是从相互独立的总体中抽取的。(2)要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量F=水平间方差/水平内方差=组间方差/组内方差 5.2SPSS在单因素方差分析中的应用单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。1.使用条件应用方差分析时,数据应当满足以下几个条件:在各个水平之下观察对象是独立随机抽样,即独立性;各个水平的因变量服从正态分布,即正态性;各个水平下的总体具有相同的方差,即方差齐; 2.基本原理方差分析认为:SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。 SPSS将自动计算检验统计量和相伴概率P值,若P值小于等于显著性水平α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。3.多重比较检验问题多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。 4.各组均值的精细比较多重比较检验只能分析两两均值之间的差异性,但是有些时候需要比较多个均值之间的差异性。具体操作11是将其转化为研究这两组总的均值是否存在()12()34显著差22异,即与是否有显著差异。这种比较是对各均值的某一线性组合结构进行判断,即上述检验可以等价改写为对进行统计推断。这种事先指定均值的线性组合,再对该线性组合进行检验的分析方法就是各组均值的精细比较。显然,可以根据实际问题,提出若干种检验问题。 5.2.2单因素方差分析的SPSS操作详解Step01:打开主操作窗口选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-WayANOVA(单因素ANOVA)】命令,弹出【One-WayANOVA(单因素ANOVA)】对话框,这是单因素方差分析的主操作窗口。Step02:选择因变量在【One-WayANOVA(单因素ANOVA)】对话框的候选变量列表框中选择一个或几个变量,将其添加至【DependentList(因变量列表)】列表框中,选择的变量就是要进行方差分析的观测变量(因变量)。 Step03:选择因素变量在【One-WayANOVA(单因素ANOVA)】对话框的候选变量列表框中选择一个变量,将其添加至【Factor(因子)】列表框中,选择的变量就是要进行方差分析的因素变量。Step04:均值精细比较单击【Contrasts】按钮,弹出如右图所示的【Contrasts(对比)】对话框。 Step05:均值多重比较单击【PostHoc】按钮,弹出如下图所示的【PostHocMultipleComparisons(两两比较)】对话框,该对话框用于设置均值的多重比较检验。 (1)方差齐性(EqualVariancesAssumed)时,有如下方法供选择。LSD(Least-significantdifference):最小显著差数法,用t检验完成各组均值间的配对比较。Bonferroni(LSDMOD):用t检验完成各组间均值的配对比较,但通过设置每个检验的误差率来控制整个误差率。Sidak:计算t统计量进行多重配对比较。可以调整显著性水平,比Bofferroni方法的界限要小。Scheffe:用F分布对所有可能的组合进行同时进入的配对比较。此法可用于检查组均值的所有线性组合,但不是公正的配对比较。R-E-G-WF:基于F检验的Ryan-Einot-Gabriel-Welsch多重比较检验。 R-E-G-WQ:基于StudentRange分布的Ryan-Einot-Gabriel-Welschrangetest多重配对比较。S-N-K:用StudentRange分布进行所有各组均值间的配对比较。Tukey:用Student-Range统计量进行所有组间均值的配对比较,用所有配对比较误差率作为实验误差率。Tukey's-b:用stndentRange分布进行组间均值的配对比较,其精确值为前两种检验相应值的平均值。Duncan:指定一系列的Range值,逐步进行计算比较得出结论。Hochberg‘sGT2:用正态最大系数进行多重比较。Gabriel:用正态标准系数进行配对比较,在单元数较大时,这种方法较自由。 Waller-Dunca:用t统计量进行多重比较检验,使用贝叶斯逼近的多重比较检验法。Dunnett:多重配对比较的t检验法,用于一组处理对一个控制类均值的比较。默认的控制类是最后一组。(2)方差不具有齐性(EqualVarancenotassumed)时,有如下方法供选择。Tamhane’sT2:基于t检验进行配对比较。Dunnett’sT3:基于Student最大模的成对比较法。Games-Howell:Games-Howell比较,该方法较灵活。Dunnett’sC:基于Student极值的成对比较法。(3)Significance:确定各种检验的显著性水平,系统默认值为0.05,可由用户重新设定。 Step06:其他选项输出单击【Options】按钮,在弹出的对话框中进行如下设置。(1)【Statistics(统计量)】复选框:选择输出统计量。●Descriptive:要求输出描述统计量。选择此项输出观测值容量、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95%置信区间。●Fixedandrandomeffects:显示固定和随机描述统计量。●Homogeneity-of-variance:计算Levene统计量进行方差齐性检验。●Brown-Forsythe:计算检验组均值相等假设的布朗检验。在方差齐性假设不成立时,这个统计量比F统计量更优越。●Welch:计算检验组均值相等假设的Welch统计量,在不具备方差齐性假设时,也是一个比F统计量更优越的统计量。 (2)Meansplot:均值折线图。根据各组均值变化描绘出因变量的分布情况。(3)【MissingValues(缺失值)】选项组中提供了缺失值处理方法,该选项和均值比较过程中的缺失值选项意义相同。Step07:相关统计量的Bootstrap估计。单击【Bootstrap】按钮,弹出如右图所示的对话框。•描述统计表支持均值和标准差的bootstrap估计。•多重比较表支持平均值差值的bootstrap估计。•对比检验表支持对比值的bootstrap估计和显著性检验。 5.2.3实例图文分析:信息来源与传播1.实例内容某机构的各个级别的管理人员需要足够的信息来完成各自的任务。最近,一项研究调查了信息来源对信息传播的影响。在这项特定的研究中,信息来源是上级、同级和下级。在每种情况下,对信息传播进行测度:数值越高,说明信息传播越广。检验信息来源是否对信息传播有显著影响?你的结论是什么?2.实例操作 由于不同的信息来源可能导致信息传播测度不同。本案例中,信息来源是因素,“上级、同级和下级”是因素的三种不同水平,信息传播测度是因变量(观测变量)。由于这里有三个水平,因此不能采用两样本的均值检验过程,故考虑采用单因素方差分析法。进行如下假设检验:H:三种不同信息来源对信息传播测度平均值没有显0著性影响;H:三种不同信息来源对信息传播测度平均值存在显1著性影响。 Step01:打开对话框打开数据文件5-1.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-WayANOVA(单因素ANOVA)】命令,弹出【One-WayANOVA(单因素ANOVA)】对话框。提示:在使用前,请注意数据是否符合方差分析的前提条件。 Step02:选择因变量在候选变量列表框中选择“scale”变量作为因变量,将其添加至【DependentList(因变量列表)】列表框中。 Step03:选择因素变量在候选变量列表框中选择“source”变量作为水平值,将其添加至【Factor(因子)】列表框中。 Step04:选择均值多重比较方法单击【Options】按钮,在弹出的对话框中勾选【Homogeneity-of-variance】复选框,表示输出方差齐性检验表。再单击【Continue】按钮返回主对话框。提示:根据数据特点及您的实验要求,选择不同的均值多重比较方法。 Step05:完成操作最后,单击【OK(确定)】按钮,操作完成。 3.实例结果及分析(1)方差齐性检验SPSS的结果报告中首先列出了方差分析检验结果。由于这里采用的是Levene检验法,故表格首先显示Levene统计量等于0.055。由于概率P值0.946明显大于显著性水平,故认为这三组数据的方差是相同的,满足方差分析的前提条件。(2)单因素方差分析表 5.2.4实例进阶分析:股票基金的费用比率1.实例内容Money杂志报告了股票和债券基金的收益和费用比率。10种中等规模的资本股票基金、10种小额资本股票基金、10种混合型股票基金和10种专项股票基金的费用比率的数据见表5-5所示(单位:%)。(1)请检验这4种类型股票基金之间的平均费用比率的差异性。(2)混合型股票基金的费用比率是其他三种类型基金费用比率的平均水平吗? 2.实例操作Step01:打开或建立数据文件5-2.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-WayANOVA(单因素ANOVA)】命令,弹出【One-WayANOVA(单因素ANOVA)】对话框。这里“rate”变量表示基金的费用比率;“fund”变量表示基金的类型,其中,“1”表示中等规模的资本股票基金,“2”表示小额资本股票基金,“3”表示混合型股票基金,“4”表示专项股票基金。 Step02:在【候选变量】列表框中选择“rate”变量作为因变量,将其添加至【DependentList(因变量列表)】列表框中。Step03:在【候选变量】列表框中选择“fund”变量作为水平值,将其添加至【Factor(因子)】列表框中。 Step04:单击【Contrasts】按钮,弹出【One-WayANOVA:Contrasts(单因素ANOVA:对比)】对话框。勾选【Polynomial(多项式)】复选框,激活【Degree(度)】下拉菜单,默认选择【Linear(线性)】选项,表示要进行均值的精细比较。接着在【Coefficients(系数)】文本框中依次输入线性多项式的系数“1”、“1”、“-3”和“1”,并单击【Add(添加)】按钮确认设置。再单击【Continue】按钮,返回主对话框。 Step05:单击【PostHoc】按钮,弹出【PostHoc(两两比较)】对话框。由于这里已计划好对这4组均值进行两两比较,则在其对话框中勾选【LSD】复选框。单击【Continue】按钮,返回主对话框。Step06:单击【Options】按钮,在弹出的对话框中勾选【Descriptive(描述性)】复选框表示输出描述性统计量;勾选【Homogeneity-of-variance(方差同质性)】复选框表示输出方差齐性检验表;勾选【Meanplot(均值图)】复选框表示输出各水平的均值折线图。再单击【Continue】按钮,返回主对话框。Step07:单击【One-WayANOVA(单因素ANOVA)】对话框中的【OK】按钮,完成操作。 3.实例结果及分析(1)描述性统计量表SPSS的结果报告中首先输出了描述性统计量,如表5-6所示。首先,中等规模的资本股票基金的平均费用比率(1.440)最低,而专项股票基金的平均费用比率(2.000)最高,但各类型基金的平均值差距不大。其次,从标准差大小来看,中等规模的资本股票基金(0.3806)最低,而混合型股票基金(0.7379)最高。最后,表5-6还列出了各种类型基金的最大值、最小值及95%水平的置信区间。 (2)方差齐性检验表5-7是方差齐性检验结果表。表中显示Levene统计量等于2.086。由于概率P值0.119大于显著性水平0.05,故认为这四种类型基金费用比率的方差是相同的,满足方差分析的前提条件。 (3)单因素方差分析表表5-7为单因素方差分析表。可以看到,费用比率总的离差平方总和为13.320;不同基金的组间离差为1.772;组内离差为11.548;它们的方差比分别为0.591和0.321,相除得F统计量的观测值为1.841,对应的概率P值为0.157。这里显著性水平为0.05,由于P值大于显著性水平0.05,所以接受零假设,认为不同类型基金的费用比率没有显著性差异。 (4)多重比较检验结果表5-8显示了两两基金之间费用比率均值比较结果。表中的星号表示在显著性水平0.05的条件下,相应的两组均值存在显著性差异。表中第四列MeanDifference表示两两不同基金费用比率差值的均值。第六列是进行t检验的概率P值,可以通过比较P值大小来判断两两基金之间的费用比率是否有显著差异。从结果来看,只有第一种和第四种基金费用比率的概率P值(0.033)小于显著性水平。因此这四种基金中,只有它们之间的费用比率存在显著性差异,其他基金的费用比率之间都没有显著差异。 (5)方差分析的精细比较案例中第二问要比较第三类基金的费用比率和其他基金之间的关系,其实就是要进行均值之间的多项式比较。表5-9首先列出了均值线性组合的系数,其实就是软件操作中第四步输入的数值。接着表5-10列出了多项式比较结果。SPSS分别给出了方差齐性和方差不齐性的检验统计量和概率P值。本案例中不管方差齐性还是不齐性,其概率P值都显著大于0.05,这说明了零假设成立,即混合型股票基金的费用比率是其他三种类型基金费用比率的平均水平。 (6)均值折线图图5-11显示了这四类基金费用比率的均值折线图。从图中明显看到,第四类基金的费用比率均值明显高于其他类型的基金。 5.3SPSS在多因素方差分析中的应用5.3.1多因素方差分析的基本原理1.方法概述多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。例如,对稻谷产量进行分析时,不仅单纯考虑耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就可能存在交互作用。 QQQQ=+++Q总控控控121控随22.基本原理由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:QQQQ=+++Q总控控控121控随2其中,Q表示各部分对应的离差平方和。多因素方差分析比较QQQQ控控控121、、、控随2Q总占的比例,以此推断不同因素以及因素之间的交互作用是否给观测变量带来显著影响。 3.软件使用方法多因素方差分析仍然采用F检验,其零假设是H:各因素不同水平下0观测变量的均值无显著差异。SPSS将自动计算F值,并依据F分布表给出相应的概率P值。我们可以根据相伴概率P值和显著性水平α的大小关系来判断各因素的不同水平对观测变量是否产生了显著性影响。 5.3.2多因素方差分析的SPSS操作详解Step01:打开主对话框选择菜单栏中的【Analyze(分析)】→【GeneralLinearModel(一般线性模型)】→【Univariate(单变量)】命令,弹出【Univariate(单变量)】对话框,这是多因素方差分析的主操作窗口。 Step02:选择分析变量在【Univariate(单变量)】对话框的候选变量列表框中,选择相应变量进行右侧的列表框中,其目的是设置分析变量。●选择观测变量(因变量):添加至【DependentVariable(因变量)】列表框中。●选择因素变量:添加至【FixedVariable(s)(固定因子)】列表框中。●选择随机变量:添加至【RandomVariable(s)(随机因子)】列表框中。●选择协变量:添加至【Covariate(s)(协变量)】列表框中。●选择权重变量:添加至【WLSWeight(WLS权重)】列表框中。 Step03:模型选择单击【Model】按钮,弹出【Univariate:Model(单变量:模型)】对话框,该对话框用于选择分析模型。 (1)FullFactorial选项系统默认选项。该项选择建立全因素模型,包括所有因素变量的主效应和所有的交互效应。例如有三个因素变量,全模型包括三个因素变量的主效应、两两的交互效应和三个因素的交互效应。选择该项后无需进行进一步的操作,即可单击【Continue】按钮返回主对话框。(2)Custom选项建立用户自定义的方差分析模型。点择【Custom(设定)】单选钮后,【Factors&Covariates(因子与协变量)】、【Model(模型)】和【BuildTerm(s)(构建项)】选项被激活。在【Factors&Covariates(因子与协变量)】列表框中自动列出可以作为因素变量的变量名。 在【BuildTerm(s)(构建项)】选项组的下拉列表框中,可以选择模型的形式。●Interaction:选中此项可以指定任意的交互效应。●Maineffects:选中此项可以指定主效应。●All2-way:指定所有2维交互效应。●All3-way:指定所有3维交互效应。●All4-way:指定所有4维交互效应。●All5-way:指定所有5维交互效应。●TypeI项:一般适用于平衡的ANOVA模型。●TypeII项:一般适用于平衡的ANOVA模型、主因子效应模型、回归模型和嵌套设计。 ●TypeIII项:系统默认的平方和分解法。适用于平衡的ANOVA模型和非平衡的ANOVA模型。凡适用TypeI和TypeII的模型均可以用该法。●TypeIV顶:一般适用于TypeI和TypelI方法的模型、有缺失值的平衡或不平衡模型。(3)【Includeinterceptinmodel(在模型中包含截距)】复选框:系统默认选项,通常截距包括在模型中。如果能假设数据通过原点,可以不包括截距,即不选择此项。 Step04:选择比较方法单击【Contrasts】按钮,弹出【Univariate:Contrasts(单变量:对比)】对话框。在【Factors(因子)】列表框中显示出所有在主对话框中选中的因素变量。因素变量名后的括号中是当前的比较方法。在该框中选择想要改变比较方法的因子,即鼠标单击选中的因子。这一操作使【ChangeContrast(更改对比)】复选栏中的各项被激活。 展开【Contrast(对比)】参数框的下拉菜单,可得到各类比较方法。●None:不进行均数比较。●Deviation:偏差比较法。除被忽略的水平外,比较预测变量或因素变量的每个水平的效应。可以点选【Last(最后一个)】(最后一个水平)或【First(第一个)】(第一个水平)作为忽略的水平。●Simple:简单比较法。除去作为参考的水平外,对预测变量或因素变量的每一水平都与参考水平进行比较。选择【Last(最后一个】或【First(第一个)】作为参考水平。●Difference:差值比较法。对预测变量或因素每一水平的效应,除第一水平以外,都与其前面各水平的平均效应进行比较。与Helmert比较法相反。●Helmert:Helmert法。对预测变量或因素的效应,除最后一个水平以外,都与后面的各水平的平均效应相比较。●Repeated:重复比较法。对预测变量或因素的效应,除第一水平以外,对每一水平都与它前面的水平进行比较。●Polynomial:多项式比较。比较线性、二次、三次等效应,常用于估计多项式趋势。 Step05:选择轮廓图单击【Plot】按钮,弹出【ProfilePlots(轮廓图)】对话框,在该对话框中设置均值轮廓图。从【Factors(因子)】列表框中选择一个因素变量移入【HorlzontalAxis(水平轴)】列表框(水平轴)定义轮廓图的横坐标。选择另一个因素变量移入【SeparateLines(单图)】列表框定义轮廓图的区分线。如果需要的话再从【Factors(因子)】列表框中选择一个因素变量移入【SeparatePlots(多图)】列表框定义轮廓图的区分图以上选择确定以后,单击【Add】按钮加以确定。需要对加入图清单框的选择结果进行修正,可单击【Chang和Remove】按钮。 Step06:选择多重比较单击【PostHoc】按钮,弹出【PostHocMultipleComparisonsforObservedMeans(单变量:观测均值的两两比较)】对话框。该对话框用于对均值作PostHoc多重比较检验。从【Factor(s)(因子)】框选择相关变量使被选变量进入【PostHoctestfor(两两比较检验)】框。不难发现,这个对话框与单因素方差分析模型的PostHoc多重比较检验对话框大致相同,各选项意义也一致。 Step07:预测值保存单击【Save】按钮,弹出【Save(保存)】对话框。通过在对话框中的选择,可以将所计算的预测值、残差和检测值作为新的变量保存在编辑数据文件中。以便于在其他统计分析中使用这些值。①PredictedValues:预测值。●Unstsndardized:非标准化预测值。●Weighted:加权预测值。如果在主对话框中选择了WLS变量,选中该复选框,将保存加权非标准化预测值。●Standarderror:预测值标准误。②Diagnostics:诊断值。●Cook’sdistance:Cook距离。●Leveragevalues:非中心化Leverage值。 ③Residuals:残差。●Unstsndardized:非标准化残差值,即观测值与预测值之差。●Weighted:加权非标准化残差。如果在主对话框中选择了WLS变量,选中该复选框,将保存加权非标准化残差。●Standardized:标准化残差,又称Pearson残差。●Studentized:学生氏残差。●Deleted:剔除自变量值与校正预测值之差。最后可以勾选【Coefficientstatistics(系数统计)】复选框,将参数协方差矩阵保存到一个新文件中。单击【File】按钮,打开相应的对话框将文件保存。 Step08:其他选项选择单击【Options】按钮,弹出【Options(选项)】对话框。各选项含义如下。①【EstimatedMarginalMeans(估计边际均值)】:估测边际均值设置。在【Factor(s)andFactorInteractions(因子和因子交互)】列表框中列出【Model(模型)】对话框中指定的效应项,在该框中选定因素变量的各种效应项。可以将其移入到【DisplayMeansfor(显示均值)】列表框中。在【DisplayMeansfor(显示均值)】列表框中有主效应时,点选激活此框下面的【Comparemaineffects(比较主效应)】复选框,对主效应的边际均值进行组间的配对比较。在【Confidenceintervaladjustment(置信区间调节)】参数框中,可以进行多重组间比较。打开下拉菜单,共有三个选项:LSD(none)、Bonferroni和Sidak方法。 ②在【Display(输出)】列表框中指定要求输出的统计量。●Descriptivestatistics:输出描述统计量。●Estimatesofeffectsize:效应量的估计。●Observedpower:功效检验或势检验。●Parameterestimates:各因素变量的模型参数估计、标准误、t检验的t值、显著性概率和95%的置信区间。●Contrastcoefficientmatrix:显示对照系数矩阵。●Homogeneitytest:方差齐次性检验。●Spreadvs.levelplot:绘制观测量均值对标准差和方差的图形。●Residualplot:绘制因变量的观察值对于预测值和标准化残差的散点图。●Lackoffit:拟合度不足检验。检查独立变量和非独立变量间的关系是否被充分描述。●Generalestimablefunction:可以根据一般估计函数自定义假设检验。 ③【Significancelevel(显著性水平)】文本框:改变Confidenceintervals(置信区间)内多重比较的显著性水平。 Step09:相关统计量的Bootstrap估计。单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●描述统计表支持均值和标准差的Bootstrap估计。●参数估计值表支持系数、B的Bootstrap估计和显著性检验。●对比结果表支持差值的Bootstrap估计和显著性检验。●估计值表支持均值的Bootstrap估计。●成对比较表支持平均值差值的Bootstrap估计。●多重比较表支持平均值差值的Bootstrap估计。Step10:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 5.3.3实例图文分析:薪金的区别1实例内容假设某一杂志的记者要考察职业为财务管理、计算机程序员和药剂师的男女雇员其每周的薪金之间是否有显著性差异。从每种职业中分别选取了5名男性和5名女性组成样本,并且记录下来样本中每个人的周薪金(单位:美元)。所得数据见表5-11所示。请你分析职业和性别对薪金有无显著影响。 2实例操作由于薪金水平的高低和所从事的职业、性别等因素都有关系。因此这里要考虑两个因素水平下的薪金差异问题,即建立双因素的方差分析模型。本案例中,职业和性别是两个影响因素,而每周薪金是因变量。同时,我们也要考虑职业和性别这两个因素之间有无交互作用。具体操作步骤如下。Step01:打开对话框打开数据文件5-3.sav,选择菜单栏中的【Analyze(分析)】→【GeneralLinearModel(一般线性模型)】→【Univariate(单变量)】命令,弹出【Univariate(单变量)】对话框。这里“wage”变量表示每月薪金;“job”变量表示职业的类型;“sex”变量表示性别。提示:在使用前,请注意数据是否符合方差分析的前提条件。 Step02:选择观测变量在候选变量列表框中选择“wage”变量作为因变量,将其添加至【DependentVariable(因变量)】列表框中。Step03:选择因素变量选择“job”和“sex”变量作为因素变量,将它们添加至【FixedFactor(s)(固定因子)】列表框中。 Step04:选择多重比较单击【PostHoc】按钮,弹出【PostHoc(两两比较)】对话框。在【Factors(因子)】列表框中选择“job”变量至【PostHocTestfor(两两比较检验)】列表框,并且勾选【LSD】选项。这里表示要进行职业变量的两两多重比较。再单击【Continue】按钮,返回主对话框。 Step05:其他选项选择单击【Options】按钮,弹出【Options(选项)】对话框。勾选【Descriptive(描述性统计量)】复选框表示输出描述性统计量;勾选【Homogeneity-of-variance(方差同质性检验)】复选框表示输出方差齐性检验表。再单击【Continue】按钮,返回主对话框。提示:根据数据特点及您的实验要求,选择不同的均值多重比较方法。 Step06:完成操作最后,单击【OK(确定)】按钮,操作完成。 3.实例结果及分析(1)描述性统计分析表表5-12和表5-13是对样本数据的基本描述结果。表5-12列出了各种水平下的样本个数。表5-13列出了不同职业、性别每周薪金的样本均值和标准差。从数值大小比较看,不少职业和性别之间每周薪金差异较大,说明有进一步采用方差分析的必要。 (2)方差齐性检验SPSS的结果报告接着列出了方差齐性检验结果表5-14。由于这里采用的是Levene检验法,故表格首先显示Levene统计量等于0.383。由于概率P值0.856明显大于显著性水平,故认为样本数据的方差是相同的,满足方差分析的前提条件。 (3)双因素方差分析检验表在表5-15中,第一行的CorrectedModel是对所用方差分析模型的检验,其原假设为模型中所有的影响因素均无作用,即职业、性别及两者的交互作用等对每周薪金都无显著影响。该检验的P值远小于0.05,因此所用模型有统计学意义,以上所提到的因素中至少有一个是有显著差异的,但具体是哪些则需要阅读后面的分析结果。第二行是对模型中常数项是否等于0进行的检验,虽然根据概率P值判断它显著不等于零,但它在分析中没有实际意义,忽略即可。第三、四行分别是对职业、性别的影响效应进行的检验,其零假设分别是:职业或性别对薪金没有显著性差异。但这两行对应的相伴概率P都接近0,显然小于显著性水平0.05。可见,两者分别对薪金有显著性影响。 第五行是对职业和性别的交叉作用进行检验,可见P为0.011,小于显著性水平,表示交互作用对观测变量每周薪金有显著性影响作用。从上面方差分析结果看到,职业、性别及其两者的交互项都直接影响了每周薪金的高低,存在统计学意义下的显著差异。 (4)多重比较检验结果表5-16显示了不同职业之间每周薪金均值比较结果。表中的星号表示在显著性水平0.05的条件下,相应的两组均值存在显著性差异。可以通过比较表中概率P值大小来判断职业之间的薪金水平是否有显著差异。从结果来看,药剂师和其他两个职业的每周薪金存在显著性差异。该职业的平均薪金要明显高于财务管理和计算机程序员职业。 5.4SPSS在协方差分析中的应用5.4.1协方差分析的基本原理1、方法概述无论是单因素方差分析还是多因素方差分析,它们都有一些人为可以控制的因变量。但在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著的影响。如果忽略这些因素的影响,则有可能得到不正确的结论。利用协方差分析就可以完成这样的功能。协方差分析是将那些很难控制的因素作为协变量。在排除协变量影响的条件下,分析因素变量对观察变量的影响,从而更加准确地对因素变量进行评价。这种方法要求协变量应是连续数值型变量,多个协变量间互相独立,且与因素变量之间也没有交互影响。 2、基本原理在协方差分析中,将观察变量总的离差平方和分解为由因变量引起的、由因变量的交互作用引起的、由协变量引起的和由其他随机因素引起的。以双因素协方差分析为例,观察变量总的离差平方和可以分解为:QQQQQ=++++Q总协控1控2控12控随QQQQQ=+++Q也可以理解总协控1控2控12控随为:。即在扣除了协变量对观察变量的影响后,分析因变量对观察变量的影响。协方差分析也采用F检验法,处理计算思路和多因素方差分析相似。 5.4.2协方差分析的SPSS操作详解1、确定是否存在协变量采用协方差分析时,首先就应该明确是否存在某些因素对因变量造成影响,特别是一些难以人为控制的因素,例如年龄、身高和体重等等,它们的不同水平可能对因变量产生较为显著的影响。此时可以绘制图形,观察协变量和因变量之间有无关联性。若从图形可以判断两者有显著关系,则可以引入协方差分析。但这也是一种辅助判断方法,只有通过协方差检验结果才能更清晰说明这种协变量的存在性。2、“Univariate”过程中引入协变量由于协方差分析也是采用【GeneralLinearModel(一般线性模型)】中的【Univariate(单变量)】命令,因此它的基本操作和多因素方差分析的SPSS操作是相同的,这里就不再重复了。只是特别的,需要将确定好的协变量引入到图5-12的【Covariate(s)(对比)】列表框即可。而【Univariate(单变量)】对话框中的各类辅助选项的用法也和多因素方差分析相同。 5.4.3实例图文分析:人体的血清胆固醇1实例内容某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量可能与年龄有关系,具体资料数据见表5-17所示。请建立模型分析体重对人体胆固醇含量的影响,同时也要兼顾年龄的因素。 2实例操作案例中需要分析体重对人体的血清胆固醇有无直接影响,同时体重这个因素分为正常组和超重组两个水平,因此可以考虑单因素方差分析模型。但如果仅分析体重的影响作用,而不考虑实验对象年龄的差异,那么得出的结论可能是不准确的。这是因为年龄的大小在一定程度上会影响人体的血清胆固醇含量的高低。因此,为了更准确描述体重对人体的血清胆固醇的影响,就应该尽量排除年龄因素对分析结果的影响。所以将年龄作为协变量引入模型,考虑建立协方差分析模型。在打开或建立数据文件5-4.sav后,具体操作步骤如下。 Step01:选择观测变量选择菜单栏中的【Graphs(图形)】→【LegacyDialogs(旧对话框)】→【Scatter/Dot(散点图/点图)】→【Simple/Scatter(简单分布)】命令,弹出【SimpleScatterplot(简单分布图)】对话框。在候选变量列表框中选择“chol”变量移入【YAxis(Y轴)】列表框中,选择“age”变量移入【XAxis(X轴)】列表框中,选择“group”变量移入【SetMarkersby(设置标签)】列表框中。 Step02:打开对话框选择菜单栏中的【Analyze(分析)】→【GeneralLinearModel(一般线性模型)】→【Univariate(单变量)】命令,弹出【Univariate(单变量)】对话框。 Step03:选择分析比较在候选变量列表框中选择“chol”变量作为因变量,将其添加至【DependentVariable(因变量)】列表框中。选择“group”作为因素变量,将其添加至【FixedVariable(s)(固定变量)】列表框中。选择“age”作为协变量,将其添加至【Covariate(s)(对比)】列表框中。 Step05:其他选项选择单击【Options】按钮,弹出【Options(选项)】对话框。勾选【Descriptive(描述性统计量)】复选框表示输出描述性统计量;勾选【Homogeneity-of-variance(方差同质性检验)】复选框表示输出方差齐性检验表。再单击【Continue按钮】,返回主对话框。提示:根据数据特点及您的实验要求,选择不同的均值多重比较方法。Step06:完成操作最后,单击【OK(确定)】按钮,操作完成。 3实例结果及分析(1)散点图散点图中,年龄为X轴,胆固醇为Y轴,体重组别作为分组标记,作出的散点图如下图所示。从中看到,实验对象的年龄和体内血清胆固醇含量呈较为明显的线性关系,且不同组别的斜率都基本相同。因此,可以将年龄变量作为协变量参与协方差分析。 (2)描述性统计分析表表5-18和表5-19是对样本数据的基本描述结果。表5-18列出了两个组别的样本个数。表5-19列出了不同体重级别人群胆固醇含量的样本均值和标准差。从数值大小比较看,这两组人群胆固醇含量有一定的差异性,可以进一步采用方差分析。 (3)方差齐性检验SPSS的结果报告接着列出了方差齐性检验结果表5-20。表格首先显示Levene统计量等于0.818。由于概率P值0.375明显大于显著性水平0.05,故认为两组样本数据的方差是相同的,满足方差分析的前提条件。 (4)协方差检验结果表5-21列出了协方差检验结果,表5-21中包括各变差分解的情况、自由度、均方、F统计量值和概率P值。同时为了说明协方差模型的有效性,表5-22列出了只考虑体重级别的胆固醇单因素方差分析结果。 对比表5-21和表5-22,两种方差分析结果中,因变量的总变量(CorrectedTotal)都是64.042。同时单因素方差模型中,随机因素的可解释变差等于45.426。但是在协方差模型中,随机因素的可解释变差降低为21.047,这是由于扣除了年龄的影响造成的。这进一步说明了年龄变量对因变量的影响。不仅如此,体重级别可解释的变差由原来的18.615减少为4.458。这也是由于扣除了年龄因素的影响造成的。综合起来,年龄因素对人体内胆固醇含量有显著的影响;同时,在排除了年龄因素的影响后,不同体重级别对胆固醇含量也存在显著的差异。可以通过表5-19看到:超重组的胆固醇含量要高于正常组的胆固醇含量。 第7章SPSS的相关分析 7.1相关分析概述7.1.1相关的基本概念1.函数关系和相关关系函数关系是指事物或现象之间存在着严格的依存关系,其主要特征是它的确定性,即对一个变量的每一个值,另一个变量都具有惟一确定的值与之相对应。变量之间的函数关系通常可以用函数式Y=f(x)确切地表示出来。例如,圆的周长C对于半径r的依存关系就是函数关系:C=2πr。相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。 7.1相关分析概述2.相关关系的类型(1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。(2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。(3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。(4)根据研究变量的多少,可分为单相关、复相关。 7.1.2相关分析1.相关分析的作用(1)判断变量之间有无联系(2)确定选择相关关系的表现形式及相关分析方法(3)把握相关关系的方向与密切程度(4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。(5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等。 7.1.2相关分析2.相关系数相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。相关系数的数值范围是介于–1与+1之间(即–1≤r≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。 7.1.2相关分析3.相关系数变量相关的方向通过相关系数r所具有的符号来表示,“+”号表示正相关,即0≤r≤1。“﹣”表示负相关,即0≥r≥﹣1。在使用相关系数时应该注意下面的几个问题。(1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。(2)相关系数r受变量取值区间大小及样本数目多少的影响比较大。(3)来自于不同群体且不同质的事物的相关系数不能进行比较。(4)对于不同类型的数据,计算相关系数的方法也不相同。 7.2SPSS在简单相关分析中的应用7.2.1简单相关分析的基本原理简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形和数值两种表示方式。1、相关图在统计中制作相关图,可以直观地判断事物现象之间大致上呈现何种关系的形式。相关图是相关分析的重要方法。利用直角坐标系第一象限,把第一个变量置于横轴上,第二个变量置于纵轴上,而将两个变量对应的变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形,这就是相关图 7.2SPSS在简单相关分析中的应用2、相关系数虽然相关图能够展现变量之间的数量关系,但这也只是种直观判断方法。因此,可以计算变量之间的相关系数。对不同类型的变量应当采取不同的相关系数来度量,常用的相关系数主要有:皮尔逊(Pearson)相关系数常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。它的计算公式为:利用相关系数r的大小可以判断变量间相关关系的密切程度,具体见表所示。 7.2SPSS在简单相关分析中的应用7.2.1简单相关分析的基本原理 7.2SPSS在简单相关分析中的应用对Pearson简单相关系数的统计检验是计算t统计量,t统计量服从n-2个自由度的t分布。SPSS会自动计算r统计量和t值,并依据t分布表给出其对应的相伴概率值。Spearman等级相关系数用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:①两个变量的变量值是以等级次序表示的资料;②一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。 7.2SPSS在简单相关分析中的应用从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。斯皮尔曼等级相关系数常用符号来表示。其基本公式为:式中:D是两个变量每对数据等级之差,n是两列变量值的对数。Spearman相关系数计算公式可以完全套用Pearson相关系数的计算公式,但公式中的x和y用它们的秩次代替即可。 7.2SPSS在简单相关分析中的应用Kendall’s等级相关系数它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。显然,如果两变量具有较强的正相关,则一致对数目U应较大;但若两变量相关性较弱,则一致对数目U和非一致对数目V应大致相等。故按照此思想,可得其定义为:SPSS将自动计算它的相关系数、检验统计量和对应的概率P值。 7.2SPSS在简单相关分析中的应用7.2.2简单相关分析的SPSS操作详解Step01:打开主菜单选择菜单栏中的【Analyze(分析)】→【Correlate(相关)】→【Bivariate(双变量)】命令,弹出【BivariateCorrelations(双变量相关)】对话框,如图7-1所示,这是简单相关检验的主操作窗口。 7.2SPSS在简单相关分析中的应用 7.2SPSS在简单相关分析中的应用Step02:选择检验变量在【BivariateCorrelations(双变量相关)】对话框左侧的候选变量列表框中选择两个个或两个以上变量将其添加至【Variables(变量)】列表框中,表示需要进行简单相关分析的变量。Step03:选择相关系数类型图中的【CorrelationCoefficients(相关系数)】选项组中可以选择计算简单相关系数的类型。●Pearson:系统默认项,即积差相关系数,计算连续变量或是等间距测度的变量间的相关分析。●Kendall:等级相关,计算分类变量间的秩相关。●Spearman:等级相关,斯皮尔曼相关系数。对于非等间距测度的连续变量,因为分布不明可以使用等级相关分析,也可以使用Pearson相关分析;对于完全等级的离散变量必须使用等级相关分析相关性。当资料不服从双变量正态分布或总体分布型未知,或原始数据是用等级表示时,宜用Spearman或Kendall相关。 7.2SPSS在简单相关分析中的应用Step04:假设检验类型选择在图中的【TestofSignificance(显著性检验)】选项组中可以选择输出的假设检验类型,对应有两个单选项。●Twotailed:系统默认项。双尾检验,当事先不知道相关方向(正相关还是负相关)时选择此项。●Onetailed:单尾检验,如果事先知道相关方向可以选择此项。同时,可以勾选【FlagsignificantCorrelations(标记显著性相关)】复选框。它表示选择此项后,输出结果中对在显著性水平0.05下显著相关的相关系数用一个星号“*”加以标记;对在显著性水平0.01下显著相关的相关系数用两个星号“**”标记。 7.2SPSS在简单相关分析中的应用Step05:其他选项选择单击【Options(选项)】按钮,弹出的对话框用于指定输出内容和关于缺失值的处理方法,主要包括以下选项。①Statistics:选择输出统计量。●Meansandstandarddeviations:将输出选中的各变量的观测值数目、均值和标准差。●Cross-productdeviationsandcovariances:输出反映选中的每一对变量之间的叉积离差矩阵和协方差矩阵。②MissingValues:用于设置缺失值的处理方式。它有两种处理方式:●Excludecasespairwise:系统默认项。剔除当前分析的两个变量值是缺失的个案。●Excludecaseslistwise:表示剔除所有含缺失值的个案后再进行分析。 7.2SPSS在简单相关分析中的应用 7.2SPSS在简单相关分析中的应用Step06:相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●描述统计表支持均值和标准差的Bootstrap估计。●相关性表支持相关性的Bootstrap估计。 7.2SPSS在简单相关分析中的应用Step07:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 7.2SPSS在简单相关分析中的应用7.2.3实例分析:股票指数之间的联系1.实例内容道琼斯工业平均指数(DJIA)和标准普尔指数500(S&P500)都被用做股市全面动态的测度。DJIA是基于30种股票的价格动态;S&P500是由500种股票组成的指数。有人说S&P500是股票市场功能的一种更好的测度,因为它基于更多的股票。表7-2显示了DJIA和S&P500在1997年10周内的收盘价。请计算它们之间的样本相关系数。不仅如此,样本相关系数告诉我们DJIA和S&P500之间的关系是怎样的? 7.2SPSS在简单相关分析中的应用2.实例操作表给出了道琼斯工业平均指数和标准普尔指数在同一时间点的数值。由于这些数值都是连续型变量,同时根据两个股票指数的散点图,可见它们呈显著的线性相关,因此可以采用Pearson相关系数来测度它们之间的相关性。但为了比较,我们也计算了这两组变量的Kendall和Spearman相关系数。 7.2SPSS在简单相关分析中的应用 7.2SPSS在简单相关分析中的应用3.实例结果及分析(1)描述性统计分析表执行完上面的操作后,首先给出的是当前样本进行描述性统计的结果,如表7-3所示。可以看到样本容量都等于10,道琼斯工业平均指数和标准普尔指数的平均均值分别为7743.60和945.10,两者差距显著。同时,两者的方差差距也很明显。 7.2SPSS在简单相关分析中的应用(2)Pearson相关系数表接着SPSS列出了道琼斯工业平均指数和标准普尔指数的Pearson相关系数表7-4。可以看到,两种指数的Pearson系数值高达0.995,非常接近1;同时相伴概率P值明显小于显著性水平0.01,这也进一步说明两者高度正线性相关。 7.2SPSS在简单相关分析中的应用(3)非参数相关系数表表7-5列出了两种股票指数的Kendall和Spearman相关系数,分别等于0.994和0.985;同时它们的概率P值也远小于显著性水平。但本案例中,Spearman相关系数和Kendall相关系数都小于Pearson相关系数,显然这是由于在秩变换或数据按有序分类处理时损失信息所导致的。所以,通过以上分析看到,道琼斯工业平均指数和标准普尔指数具有高度正相关性,一个指数的上涨或上跌时,另一个指数也会伴随着上涨或下跌。 7.2SPSS在简单相关分析中的应用 7.3SPSS在偏相关分析中的应用7.3.1偏相关分析的基本原理1.方法概述简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。例如身高、体重与肺活量之间的关系,如果使用Pearson相关计算其相关系数,可以得出肺活量、身高和体重均存在较强的线性相关性质。但实际上呢,对体重相同的人而言,身高值越大其肺活量也不一定越大。因为身高与体重有着线性关系,肺活量与体重有着线性关系,因此得出了身高与肺活量之间存在较强的线性关系的错误结论。偏相关分析就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。 7.3SPSS在偏相关分析中的应用2.基本原理偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。偏相关系数在计算时可以首先分别计算三个因素之间的相关系数,然后通过这三个简单相关系数来计算偏相关系数,公式如下:rrr121323r12(3)2211rr1323上式就是在控制了第三个因素的影响所计算的第一、第二个因素之间的偏相关系数。当考虑一个以上的控制因素时的公式类推。 7.3SPSS在偏相关分析中的应用7.3.2偏相关分析的SPSS操作详解Step01:打开主菜单选择菜单栏中的【Analyze(分析)】→【Correlate(相关)】→【Partial(偏相关)】命令,弹出【PartialCorrelations(偏相关)】对话框,如图7-9所示,这是偏相关检验的主操作窗口。 7.3SPSS在偏相关分析中的应用Step02:选择检验变量在【BivariateCorrelations(偏相关)】对话框左侧的候选变量列表框中选择两个或两个以上变量,将其添加至【Variables(变量)】列表框中,表示需要进行偏相关分析的变量。Step03:选择控制变量在【BivariateCorrelations(偏相关)】对话框左侧的候选变量列表框中至少选择一个变量,将其添加至【Controllingfor(控制)】列表框中,表示在进行偏相关分析时需要控制的变量。注意如果不选入控制变量,则进行的是简单相关分析。Step04:假设检验类型选择在【TestofSignificance(显著性检验)】选项组中可以选择输出的假设检验类型,对应有以下两个选项。●Twotailed:系统默认项。双尾检验,当事先不知道相关方向(正相关还是负相关)时选择此项。●Onetailed:单尾检验,如果事先知道相关方向可以选择此项。同时,可以勾选【FlagsignificantCorrelations】复选框。它表示选择此项后,输出结果中对在显著性水平0.05下显著相关的相关系数用一个星号“*”加以标记;对在显著性水平0.01下显著相关的相关系数用两个星号“**”标记。 7.3SPSS在偏相关分析中的应用Step05:其他选项选择单击【Options】按钮,弹出的对话框用于指定输出内容和关于缺失值的处理方法,主要包括以下选项。①Statistics:选择输出统计量。●Meansandstandarddeviations:将输出选中的各变量的观测值数目、均值和标准差。●Zero-ordercorrelation:显示零阶相关矩阵,即Pearson相关矩阵。②MissingValues:用于设置缺失值的处理方式。它有两种处理方式:●Excludecasespairwise:系统默认项。剔除当前分析的两个变量值是缺失的个案。●Excludecaseslistwise:表示剔除所有含缺失值的个案后再进行分析。 7.3SPSS在偏相关分析中的应用 7.3SPSS在偏相关分析中的应用Step06:相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●描述统计表支持均值和标准差的Bootstrap估计。●相关性表支持相关性的Bootstrap估计。Step07:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 7.3SPSS在偏相关分析中的应用7.3.3实例分析:股票市场和债券市场1.实例内容在我国的金融市场中,股票市场和债券市场都是其中的重要组成部分。研究它们之间的关系有利于我们弄清楚金融市场之间的关联特征。但是我国债券市场主要由银行间债券市场和证券交易所债券市场组成,并且它们处于相对分割状态,在投资主体、交易方式等方面存在显著差异。数据文件7-2.sav列出了近几年我国股票市场、交易所国债市场和银行间国债市场的综合指数,请利用相关分析研究这三个市场的关联特征 7.3SPSS在偏相关分析中的应用2.实例操作由于这里要研究三个金融市场之间的关系,因此首先可以利用7.2节的简单相关分析来初步探讨它们之间的联系。表7-6计算了这三个市场之间的Pearson相关系数。从表中数据看到,三个市场间的价格相关系数较高,其中交易所和银行间国债市场相关系数高达0.922,而它们和股市的相关系数相对较低,分别是0.411和0.419,从数值大小看到这两个子市场和股市的关联性差异不明显。但是,就相关系数本身而言,它未必是两事物间线性关系强弱的真实体现,往往有夸大的趋势,因为它在计算时都没有考虑第三方的影响,这就有可能导致对事物的解释出现偏差。这里,股市、银行间国债市场和交易所国债市场之间肯定是相互关联的,两个市场间的关系强弱肯定要受到第三方的影响制约,市场间的关系强弱可能存在传递效应。基于这种考虑,这里要引入偏相关系数测度市场间的关系。 7.3SPSS在偏相关分析中的应用3.实例结果及分析(1)描述性统计分析表执行完上述操作后,首先给出的是当前样本进行描述性统计的结果表7-7。可以看到样本容量都等于1321,三个市场综合指数的样本均值和样本方差都有一定的差距。 7.3SPSS在偏相关分析中的应用(2)偏相关系数表表7-8~表7-10列出了三个市场之间的偏相关系数。在控制了股市指数后,银行间和交易所市场间的相关系数没有发生太大变化,仍然高达0.906,说明了这两个市场的关系密切且股市对两市波动影响较小。而银行间国债市场、交易所国债市场与股市的偏相关系数却发生了显著变化:银行间市场和股市的Pearson相关系数为0.419,而在控制了交易所指数后,它们之间的偏相关系数下降为0.114;同理,交易所国债市场和股市的相关系数也由0.411下降到0.070。这说明了第三方市场对剩余两个市场确实存在显著影响,通过简单相关系数还无法深入刻画市场之间的关系。这里引入偏相关系数是比较适合的。 7.3SPSS在偏相关分析中的应用 7.3SPSS在偏相关分析中的应用 7.3SPSS在偏相关分析中的应用 7.4SPSS在距离分析中的应用7.4.1距离分析的基本原理简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。 7.4SPSS在距离分析中的应用距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合程度,也可用于考察变量的相似程度。在距离分析中,主要利用变量间的相似性测度(Similarities)和不相似性测度(Dissimilarities)度量研究对象之间的关系。 7.4SPSS在距离分析中的应用7.4.2距离分析的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Correlate(相关)】→【Distances(距离)】命令,弹出【Distances(距离)】对话框,这是距离分析的主操作窗口。 7.4SPSS在距离分析中的应用Step02:选择检验变量在【Distances(距离)】对话框左侧的候选变量列表框中选择两个或两个以上变量,将其添加至【Variables(变量)】列表框中,表示需要进行距离分析的变量。同时可以选择一个字符型标示变量移入【LabelCases(标注个案)】列表框中,在输出中将用这个标示变量值对各个观测量加以标记。缺省时,输出中用观测量的序号来标记。Step03:选择分析类型在【ComputeDistances(计算距离)】选项组中可以选择计算何种类型的距离。●Betweencases:系统默认项。表示作变量内部观察值之间的距离相关分析。●Betweenvariables:表示作变量之间的距离相关分析。 7.4SPSS在距离分析中的应用Step04:测度类型选择在【Measure(度量标准)】选项组中可以选择分析时采用的距离类型。●Dissimilarities:系统默认项。不相似性测距,系统默认采用欧式距离测度观测值或变量之间的不相似性。●Similarities:相似性测距。系统默认使用Pearson相关系数测度观测值或变量之间的相似性。Step05:完成操作单击【OK】按钮,结束操作,SPSS软件自动输出结果。上述第四步中除了采用系统默认的距离测度类型外,还可以根据用户的需要自己选择测度类型,由于这里专业性很强,而且实际中使用很少,下面只做些简单的介绍。在【Distances(距离)】对话框中,选择【Dissimilarities(不相似性)】距离类型后,单击【Measure】按钮,弹出下图所示的对话框。 7.4SPSS在距离分析中的应用 7.4SPSS在距离分析中的应用选择【Similarities(相似性)】时各种数据类型可用的测距方法有以下几种。①Interval:计量资料。●Pearsoncorrelation:以Pearson相关系数为距离。●Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。②Binary:二分类变量。●RussellandRao:以二分点乘积为配对系数。●Simplematching:以配对数与总对数的比例为配对系数。●Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重。●Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重。●RogersandTanimoto:RogersandTanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重。●SokalandSneath1:SokalandSneathⅠ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重。●SokalandSneath2:SokalandSneathⅡ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重。 7.4SPSS在距离分析中的应用●SokalandSneath3:SokalandSneathⅢ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同。●Kulczynski1:KulczynskiⅠ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同。●Kulczynski2:Kulczynski平均条件概率。●SokalandSneath4:SokalandSneath条件概率。●Hamann:Hamann概率。●Lambda:Goodman-Kruskai相似测量的λ值。●Anderberg‘sD:以一个变量状态预测另一个变量状态。●Yule‘sY:Yule综合系数,属于2×2四格表的列联比例函数。●Yule'sQ:Goodman-Kruskalγ值,属于2×2四格表的列联比例函数。●Ochiai:Ochiai二分余弦测量。●SokalandSneath5:SokalandSneathⅤ型相似测量。●Phi4pointcorrelation:Pearson相关系数的平方值。●Dispersion:Dispersion相似测量。 7.4SPSS在距离分析中的应用进行标准化的方法在【Standized(标准化)】后面的下拉列表中。单击矩形框右面的箭头按钮展开下拉列表,可选择的标准化方法如下。●None:不作数据转换,系统默认项。●Z-Scores:作标准Z分值转换,此时均值等于0,标准差等于1。●Range-1to1:作-1至+1之间的标准化转换。●Range0to1:作0至1之间的标准化转换。●Maximummagnitudeof1:作最大值等于1的标准转换。●Meanof1:作均数单位转换。●Standarddeviationof1:作标准差单位转换。【TransformValues(转换值)】复选项:选择测度转换方法。在距离测度计算完成后,才进行对测度的转换。共有3个转换方法可以选择。每种转换方法给出一种转换结果。3种转换方法可以同时选择。 7.4SPSS在距离分析中的应用●Abosolutevalues:对距离取绝对值。当符号表明的是相关的方向,且仅对相关的数值感兴趣时使用这种转换。●Changesign:改变符号。把相似性测度值转换成不相似性测度值或相反。●Rescaleto0~1range:重新调整测度值到范围0~1转换法。对已经按有意义的方法标准化的测度,一般不再使用此方法进行转换。 7.4SPSS在距离分析中的应用7.4.3实例分析:价格指数的相关性1.实例内容价格指数是用来反映不同时期商品价格水平的变化方向、趋势和程度的经济指标,它属于经济指数的一种,通常以报告期和基期相对比的相对数来表示。价格指数是研究价格动态变化的一种工具,它为制定、调整和检查各项经济政策,特别是价格政策提供依据。表7-11列出了我国1991年—2005年间居民消费价格指数、城市居民消费价格指数、农村居民消费价格指数、商品销售价格指数、工业品出厂价格指数、原材料等购进价格指数和固定资产投资价格指数。请研究这些价格指数之间的关系。 7.4SPSS在距离分析中的应用2.实例操作本案例要讨论居民消费价格指数等七类价格指数之间关联特征。由于这些价格指数的构成复杂,因此可以采用距离分析来探讨它们之间的关系。由于都属于连续型数据,这里可以选择不相似性测距中的欧式距离来测度。 7.4SPSS在距离分析中的应用3.实例结果及分析(1)基本统计汇总表表7-12是对个案的基本统计汇总分析。本案例的样本数目等于15,没有缺失数据。 7.4SPSS在距离分析中的应用(2)距离矩阵表7-13是根据欧式距离计算出的各个价格指数之间的距离。如果距离数值越小,说明两个价格指数越相关;反之。可以看到,居民消费价格指数和城市居民消费价格指数、农村居民消费价格指数和商品销售价格指数的距离都较小,说明它们都反映了社会总体或某方面价格水平的高低;但是它和工业品出厂价格指数、原材料等购进价格指数和固定资产投资价格指数的距离都较大,说明这些价格指数反映的类型有较大差别。其余指数之间的关系可以类似分析。 7.4SPSS在距离分析中的应用 第8章SPSS的回归分析 8.1SPSS在一元线性回归分析中的应用8.1.1一元线性回归的基本原理1.方法概述线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。一般线性回归的基本步骤如下。①确定回归方程中的自变量和因变量。②从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。③建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。④对回归方程进行各种统计检验。⑤利用回归方程进行预测。 8.1SPSS在一元线性回归分析中的应用2、基本原理当自变量和因变量之间呈现显著的线性关系时,则应采用线性回归的方法,建立因变量关于自变量的线性回归模型。根据自变量的个数,线性回归模型可分为一元线性回归模型和多元线性回归模型一元线性回归模型是在不考虑其他影响因素的条件下,或是在认为其他影响因素确定的情况下,分析某一个因素(自变量)是如何影响因变量的。一元线性回归的经验模型是:yˆˆˆx01式中,表示回归直线在纵轴上的截距,是回归系数,它表示当自变量变动一个单位所引起的因变量的平均变动值。 8.1SPSS在一元线性回归分析中的应用3.统计检验在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。这些内容,我们将结合案例来具体讲解。 8.1.2一元线性回归的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Linear(线性)】命令,弹出【LinearRegression(线性回归)】对话框,这是线性回归分析的主操作窗口。Step02:选择因变量在【LinearRegression(线性回归)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Dependent(因变量)】列表框中,即选择该变量作为一元线性回归的因变量。 8.1.2一元线性回归的SPSS操作详解Step03:选择自变量在【LinearRegression(线性回归)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Independent(s)(自变量)】列表框中,即选择该变量作为一元线性回归的自变量。 8.1.2一元线性回归的SPSS操作详解Step04:选择回归模型中自变量的进入方式在【Method(方法)】选项组中可以选择自变量的进入方式,一共有五种方法。可单击【Independent(s)(自变量)】列表框上方的【Next】按钮,选定的这一组自变量将被系统自动保存于一个自变量块(Block)中。接下来选择另一组自变量,单击【Next】按钮将它们保存于第二个自变量块中。重复上述操作,可以保存若干个自变量块。若需要输出以哪一组变量为自变量的回归方程,可以通过单击【Previous】按钮和【Next】按钮来选择。 8.1.2一元线性回归的SPSS操作详解Step05:样本的筛选从主对话框的候选变量列表框中选择一个变量,将其移至【SelectionVariable(选择变量)】列表框中,这表示要按照这个变量的标准来筛选样本进行回归分析。具体操作可以在Rule窗口中实现。Step06:选择个案标签从候选变量列表框中选择一个变量进入【CaseLabels(个案标签)】列表框中,它的取值将作为每条记录的标签。这表示在指定作图时,以哪个变量作为各样本数据点的标志变量。Step07:选择加权二乘法变量从候选变量列表框中选择一个变量进入【WLSWeigh(WLS权重)】列表框中,表示选入权重变量进行权重最小二乘法的回归分析。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 8.1.2一元线性回归的SPSS操作详解执行完上述操作后,可以输出一元线性回归的基本结果报告了。但是线性回归主对话框中还包括了其他功能选项。下面列出了它们的具体使用功能。(1)【Statistics(统计量)】:选择输出需要的描述统计量,如图8-2所示。其中,【RegressionCoefficients(回归系数)】复选框组用于定义回归系数的输出情况,【Residuals(残差)】复选框组用于选择输出残差诊断的信息。 8.1.2一元线性回归的SPSS操作详解•Estimates:可输出回归系数B及其标准误,回归系数的t检验值和概率p值,还有标准化的回归系数beta。•Confidenceintervals:每个回归系数的95%置信区间。•Covariancematrix:方差-协方差矩阵。•Modelfit:模型拟合过程中进入、退出的变量的列表;以及一些有关拟合优度的检验统计量,例如R、R2和调整的R2、估计值的标准误及方差分析表。•Rsquaredchange:显示每个自变量进入方程后R2、F值和p值的改变情况。•Descriptives:显示自变量和因变量的有效数目、均值、标准差等,同时还给出一个自变量间的相关系数矩阵。•Partandpartialcorrelations:显示自变量间的相关、部分相关和偏相关系数。•Collinearitydiagnostics:多重共线性分析,输出各个自变量的特征根、方差膨胀因子、容忍度等。•Durbin-Watson:残差序列相关性检验。•Casewisediagnostic:对标准化残差进行诊断,判断有无奇异值(Outliers)。 8.1.2一元线性回归的SPSS操作详解(2)【Plots(绘制)】:用于选择需要绘制的回归分析诊断或预测图。 8.1.2一元线性回归的SPSS操作详解用户可以根据上图从中选择部分变量作为X(横坐标)和Y(纵坐标)。同时还可以通过单击Next按钮来重复操作过程。绘制更多的图形。•DEPENDENT:因变量。•*ZPRED:标准化预测值。•*ZRESID:标准化残差。•*DRESID:剔除的残差。•ADJPRED:调整后的预测值。•SRESID:学生化残差。•SDRESID:学生化剔除残差。 8.1.2一元线性回归的SPSS操作详解选择【StandardizedResidualPlots(标准化残差图)】选项,可以选择输出标准化残差图,其中包括以下选项。•Histogram:标准化残差的直方图。•Normalprobalityplot:标准化残差的正态概率图(P-P图),将标准化残差与正态分布进行比较。•Produceallpartialplots:每一个自变量对于因变量残差的散点图。(3)【Save(保存)】:将预测值、残差或其他诊断结果值作为新变量保存于当前工作文件或新文件。【PredictedValues(预测值)】为预测栏,用于选择输出回归模型的预测值。•Unstandardized:未标准化的预测值。•Standardized:标准化的预测值。•Adjusted:经调整的预测值。•S.E.ofmeanpredictions:预测值的标准误差。 8.1.2一元线性回归的SPSS操作详解【Residuals(残差)】为残差栏,包含以下选项。•Unstandardized:未标准化残差。•Standardized:标准化残差。•Studentized:学生化残差。•Deleted:剔除残差。•StudentizedDeleted:学生化剔除残差。【Distances(距离)】为距离栏,包含以下选项。•Mahalanobis:马氏距离。•Cook’s:库克距离。•Leveragevalues:杠杆值。 8.1.2一元线性回归的SPSS操作详解【InfluenceStatistics(影响统计量)】反映剔除了某个自变量后回归系数的变化情况。•DfBeta(s):由排除一个特定的观测值所引起的回归系数的变化。•StandardizedDfbeta(s):标准化的DfBeta值。•DfFit:拟合值之差,由排除一个特定的观测值所引起的预测值的变化。•StandardizedDfFit:标准化的DfFit值。•Covarianceratio:带有一个特定的剔除观测值的协方差()阵与带有全部观测量的协方差矩阵的比率。【Predictionintervals(预测区间)】为预测区间栏。•Mean:均值预测区间的上下限。•Individual:因变量单个观测量的预测区间。•Confidenceinterval(置信区间):默认值为95%,所键入的值必须在0~100之间。 8.1.2一元线性回归的SPSS操作详解(4)【Options(选项)】:改变用于进行逐步回归(Stepwisemethods)时的内部数值的设定以及对缺失值的处理方式。•【SteppingMethodCriteria(步进方法标准)】为逐步回归标准选择项。•UseprobabilityofF:如果一个变量的F显著性水平值小于所设定的进入值(Entryvalue),那么这个变量将会被选入方程式中;如果它的F显著性水平值大于所设定的剔除值(Removalvalue),那么这个变量将会被剔除。•UseFvalue:如果一个变量的F值大于所设定的进入值(Entryvalue),那么这个变量将会被选入方程式中;如果它的F值小于剔除值,那么那么这个变量将会被剔除。•Includeconstantinequation:选择此项表示在回归方程式中包含常数项。•【Missingvaluetreatments(缺失值)】为缺失值处理方式选择项。•Excludecaseslistwise:系统默认项,表示剔除所有含缺失值的个案后再进行分析。•Excludecasespariwise:剔除当前分析的两个变量值是缺失的个案。•Replacewithmean:利用变量的平均数代替缺失值。 8.1.2一元线性回归的SPSS操作详解(5)【Bootstrap】:可以进行如下统计量的Bootstrap估计。•描述统计表支持均值和标准差的Bootstrap估计。•相关性表支持相关性的Bootstrap估计。•模型概要表支持Durbin-Watson的Bootstrap估计。•系数表支持系数、B的Bootstrap估计和显著性检验。•相关系数表支持相关性的Bootstrap估计。•残差统计表支持均值和标准差的Bootstrap估计。 8.1SPSS在一元线性回归分析中的应用8.1.3实例分析:广告支出与销售量1.实例内容表8-1中的数据是7大名牌饮料的广告支出(百万美元)与箱销售量(百万)的数据。请利用回归分析来分析广告支出与箱销售量的关系。 8.1SPSS在一元线性回归分析中的应用2.实例操作现在厂商要研究投入的广告支出与箱销售量之间的关系,则可以建立回归模型来探讨它们之间的关系,即箱销售量=f(广告支出)首先绘制了这两组变量的散点图8-6,图形显示它们呈线性关系,则可以建立一元线性回归模型如下: 8.1SPSS在一元线性回归分析中的应用 8.1SPSS在一元线性回归分析中的应用3.实例结果及分析(1)自变量进入方式执行完上面的操作后,首先给出的是自变量进入方式表8-2。可以看到回归模型的选入变量是广告支出(expenditure),采用的自变量进入方式是强行进入法,也就是将所有的自变量都放入模型中。 8.1SPSS在一元线性回归分析中的应用(2)模型摘要表8-3是对模型的简单汇总,其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(RSquare),校正后的可决系数(adjustedRSquare)和回归系数的标准误(Std.ErroroftheEstimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数RSquare的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。本案例计算的回归模型中可决系数R2等于0.957,模型拟合效果较好。 8.2SPSS在多元线性回归分析中的应用8.2.1多元线性回归的基本原理1.方法概述在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。2.基本原理多元线性回归模型是指有多个自变量的线性回归模型,它用于揭示因变量与多个自变量之间的线性关系。多元线性回归方程的经验模型是:yxˆˆˆˆxxˆ01122kkx1,,xkˆi(1ik,,)ˆi上式中,假设该线性方程有k个自变量。ˆ是回归方程的偏回归系数。表示在其他自变量保持不变的情况i下,自变量x变动一个单位所引起的因变量的平均变动单位。i 8.2SPSS在多元线性回归分析中的应用8.2.2多元线性回归的SPSS操作详解由于多元线性回归模型是一元回归模型的推广,因此两者在SPSS软件中的操作步骤是非常相似的。选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Linear(线性)】命令,弹出【LinearRegression(线性回归)】对话框。这既是一元线性回归也是多元线性回归的主操作窗口。因此,读者可以参考8.1.2节的操作步骤。只不过由于多元回归模型涉及到多个自变量,因此在图8-1中要在【LinearRegression(线性回归)】对话框左侧的候选变量列表框中选择多个变量,将其添加至【Independent(s)(自变量)】列表框中,即选择这些变量作为多元线性回归的自变量。 8.2SPSS在多元线性回归分析中的应用8.2.3实例分析:电视广告和报纸广告1.实例内容娱乐时光影剧院公司的老板希望了解公司投放的电视广告费用和报纸广告费用对公司收入的影响。以往8周的样本数据如表8-6所示(单位:千美元)。请建立模型分析这两种广告形式对公司营业收入的影响。 8.2SPSS在多元线性回归分析中的应用2.实例操作本案例要分析电视广告和报纸广告对公司收入的影响,则可以建立二元回归模型来探讨它们之间的关系,即每周营业总收入=f(电视广告费用,报纸广告费用)可以通过比较电视广告和报纸广告变量的系数大小来研究这两种广告形式对收入的影响程度高低。但是,是否收入和广告费用呈线性关系,则首先要绘制散点图来判断。通过三维散点图8-9看到,这三个变量之间呈明显的线性增长关系,因此可以建立营业收入的二元影响回归模型如下: 8.2SPSS在多元线性回归分析中的应用 8.2SPSS在多元线性回归分析中的应用3.实例结果及分析(1)自变量进入方式执行完上面的操作后,首先给出的是自变量进入方式表8-7。由于这里的自变量进入方式采用的是系统默认,即强行进入法,可以看到回归模型的选入变量是报纸广告费用和电视广告费用。 8.2SPSS在多元线性回归分析中的应用(2)模型摘要表8-8给出了衡量该回归方程优劣的统计量。R为复相关系数,它表示模型中所有自变量(tv、newspaper)与因变量income之间的线性回归关系的密切程度大小。它的取值介于0和1之间;R越大说明线性回归关系越密切。可决系数R2等于复相关系数的平方,这里等于0.919。调整的R2为我们要重点关注的统计量;它的值越大,模型拟合效果得越好;表8-8中调整的R2为0.887。最后给出的是剩余标准差(Std.ErroroftheEstimate),它是残差的标准差,其大小反映了建立的模型预测因变量的精度。剩余标准差越小,说明建立的模型效果越好。 8.2SPSS在多元线性回归分析中的应用(3)方差分析表表8-9是对回归模型进行方差分析的检验结果。可以看到方差分析结果中F统计量等于28.378,概率P值0.002小于显著性水平0.05,所以该模型是有统计学意义的,即两种广告支出费用和每周营业收入之间的线性关系是显著的。 8.2SPSS在多元线性回归分析中的应用(4)回归系数表表8-10给出了回归模型的常数项(Constant)、电视广告费用和报纸广告费用的偏相关系数,它们分别等于83.230、2.290和1.301。于是得到回归方程如下:每周营业总收入=83.230+2.290×电视广告费用+1.301×报纸广告费用其中常数项表示当自变量取值全为0时,因变量的取值大小,即没有这两种广告投入时电影院的营业收入。同时比较电视广告和报纸广告的系数看到,电视广告对电影院的收入影响要大于报纸广告的影响。表8-10还给出了模型对tv和income变量的偏回归系数是否等于0的t检验结果。t值分别等于7.532和4.057,概率P值都小于显著性水平0.05,因此认为偏相关系数β1、β2显著不等于0。同时,SPSS在输出一般偏回归系数的同时,也输出了各自的标准化偏回归系数(StandardizedCoefficients)。 8.2SPSS在多元线性回归分析中的应用 8.3SPSS在曲线拟合中的应用8.3.1曲线拟合的基本原理1.方法概述实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。 8.3SPSS在曲线拟合中的应用2、常用曲线估计模型SPSS的【CurveEstimation(曲线估计)】选项就是用来解决上述问题的。它提供了11种常用的曲线估计回归模型。 8.3SPSS在曲线拟合中的应用8.3.2曲线拟合的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【CurveEstimation(曲线估计)】命令,弹出【CurveEstimation(曲线估计)】对话框,这是曲线拟合的主操作窗口。 8.3SPSS在曲线拟合中的应用Step02:选择因变量在【CurveEstimation(曲线估计)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Dependent(s)(因变量)】列表框中,即选择该变量作为曲线估计的因变量。Step03:选择自变量在【CurveEstimation(曲线估计)】对话框左侧的候选变量列表框中选择一个数值型变量,将其添加至【Independent(自变量)】栏中的【Variable(变量)】列表框中,即选择该变量作为曲线估计的自变量。如果自变量是时间变量或序列ID,可以选择它移入【Time(时间)】框中,此时自变量之间的长度是均匀的。 8.3SPSS在曲线拟合中的应用Step04:选择个案标签从候选变量列表框中选择一个变量进入【CaseLabels(个案标签)】列表框中,它的取值将作为每条记录的标签。这表示在指定作图时,以哪个变量作为各样本数据点的标志变量。Step05:选择曲线拟合模型在【Models(模型)】复选框中共有11种候选曲线模型可以选择,用户可以选择多种候选模型进行拟合优度比较。Step06:选择预测值和残差输出单击【Save】按钮,弹出对话框。 8.3SPSS在曲线拟合中的应用【SaveVariables(保存变量)】选项组中的选项是将预测值、残差或其他诊断结果值作为新变量保存于当前工作文件中。●PredictedValues:输出回归模型的预测值。●Residuals:输出回归模型的残差。●PredictedIntervals:预测区间的上下限。●ConfidenceInterval:选择预测区间的置信概率。【PredictCase(预测个案)】选项组是以时间序列为自变量时的预测值输出。●Predictfromestimationperiodthroughlastcase:计算样本中数据的预测值。●Predictthrough:预测时间序列中最后一个观测值之后的值。选择该项后,在下面的【Observation(观测值)】文本框中指定一个预测周期限。 8.3SPSS在曲线拟合中的应用 8.3SPSS在曲线拟合中的应用Step07:其他选项输出在图中还有三个选项可供选择,用户可根据自己的需要勾选这些选项。●DisplayANOVATable:结果中显示方差分析表。●Includeconstantinequation:系统默认值,曲线方程中包含常数项。●Plotmodels:系统默认值;绘制曲线拟合图。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 8.3SPSS在曲线拟合中的应用8.3.3实例分析:空置率和租金率1.实例内容某管理咨询公司采集了市场上办公用房的空置率和租金率的数据。对于13个选取的销售地区,表8-13是这些地区的中心商业区的综合空置率(%)和平均租金率(元/平方米)的统计数据。请尝试分析空置率对平均租金率的影响。 8.3SPSS在曲线拟合中的应用2.实例操作本案例要分析空置率对平均租金率的影响,因此首先绘制它们之间的散点图8-18。从图形看到,随着空置率的增加,平均租金率呈显著的下降趋势。但是这种下降趋势并不是线性的,而表现为非线性的关系。故可以考虑采用曲线拟合的方法。 8.3SPSS在曲线拟合中的应用3.实例结果及分析(1)模型描述表8-14是SPSS对曲线拟合结果的初步描述统计,例如自变量和因变量、估计方程的类型等。 8.3SPSS在曲线拟合中的应用(2)模型汇总及参数估计表8-15给出了样本数据分别进行三种曲线方程拟合的检验统计量和相应方程中的参数估计值。对于直线拟合,它的可决系数R2为0.858,F统计量等于66.335,概率P值小于显著性水平0.05,说明该模型有统计学意义;并且直线拟合方程为:对于逆函数方程和指数方程拟合来说,它对应的可决系数R2分别为0.972和0.900,模型也显著有效;具体估计方程分别为:虽然上述模型都有显著的统计学意义,但从可决系数的大小可以清晰看到逆函数方程较其他两种曲线方程拟合效果更好,因此选择逆函数方程来描述空置率和租金率的关系。 8.3SPSS在曲线拟合中的应用 8.3SPSS在曲线拟合中的应用(3)拟合曲线图最后给出的是实际数据的散点图和三种估计曲线方程的预测图。从图8-22也进一步说明逆函数曲线方程的拟合效果最好。 8.4SPSS在非线性回归分析中的应用8.4.1非线性回归分析的基本原理非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。因此,本方法在实际应用中有很大的实用价值。 8.4SPSS在非线性回归分析中的应用非线性回归模型一般可以表示为如下形式:yyefxeˆ(,)iii其中f(,)x为期望函数,该模型的结构和线性回归模型非常相似,所不同的是期望函数可能为任意形式,甚至在有的情况下没有显式关系式,回归方程中参数的估计是通过迭代方法获得的。f(,)x 8.4SPSS在非线性回归分析中的应用8.4.2非线性回归分析的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Nonlinear(非线性)】命令,弹出【NonlinearRegression(非线性回归)】对话框,这是非线性回归的主操作窗口。 8.4SPSS在非线性回归分析中的应用Step02:选择因变量在【NonlinearRegression(非线性回归)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Dependent(自变量)】列表框中,即选择该变量作为非线性回归分析的因变量。Step03:设置参数变量和初始值单击【Parameters(参数)】按钮,将打开如下图所示的对话框,该对话框用于设置参数的初始值。 8.4SPSS在非线性回归分析中的应用•【Name(名称)】文本框:用于输入参数名称。•【StartingValue(初始值)】文本框:用于输入参数的初始值。当输入完参数名和初始值后,单击【Add】按钮,则定义的变量及其初始值将显示在下方的参数框中,参数的初始值可根据给定模型中参数定义范围情况而定。如果需要修改已经定义的参数变量,则先将其选中,然后在【Name(名称)】和【StartingValue(初始值)】文本框里进行修改,完成后点击【Change】按钮确认修改。如果要删除已经定义的参数变量,先用将其选中,然后点击【Remove】按钮删除。如果勾选【Usestartingvaluesfrompreviousanalysis(使用上一分析的起始值)】复选框,表示使用前一次分析确定的初始值;当算法的收敛速度减慢时,可选择它继续进行搜索。完成后单击【Continue】按钮返回主程序窗口。 8.4SPSS在非线性回归分析中的应用Step04:输入回归方程在【ModelExpression(模型表达式)】文本框中输入需要拟合的方程式,该方程中包含自变量、参数变量和常数等。自变量从左侧的候选变量列表框中选择,参数变量从左侧的【Parameters(参数)】列表框里选入。同时,拟合方程模型中的函数可以从【Function(函数组)】列表框里选入;方程模型的运算符号可以用鼠标从窗口“数字符号”显示区中点击输入。Step05:迭代条件选择单击【Loss】按钮,将打开如下图所示的对话框。该对话框用来选择损失函数来确定参数的迭代算法。 8.4SPSS在非线性回归分析中的应用•Sumofsquaredresiduals:系统默认项,基于残差平方和最小化的迭代算法。•User-definedlossfunction:自定义选项,设置其他统计量为迭代条件。在下面文本输入框中输入相应的统计量的表达式,这里称为损失函数。左侧的候选变量列表框中,“RESID_”代表所选变量的残差;“PRED_”代表预测值。可以从左下角的【Parameters(参数)】列表框中选择已定义的参数进入损失函数。 8.4SPSS在非线性回归分析中的应用Step06:参数取值范围选择单击【Constraints】按钮,将打开如下图所示的对话框。该对话框用来设置回归方程中参数的取值范围。•Unconstrained:无约束条件,系统默认项。•Defineparameterconstraint:可对选定的参数变量设置取值范围。参数的取值范围用不等式“=,<=,>=”来定义。例如这里限制参数“b”的迭代范围是“b<=5”。 8.4SPSS在非线性回归分析中的应用Step07:选择预测值和残差等输出单击【Save】按钮,弹出如下图所示的对话框。它表示要保存到数据文件中的统计量。•PredictedValues:输出回归模型的预测值。•Residuals:输出回归模型的残差。•Derivatives:模型各个参数的一阶导数值。•Lossfunctionvalues:损失函数值。 8.4SPSS在非线性回归分析中的应用Step08:迭代方法选择单击【Options】按钮,弹出如下图所示的对话框。它用于选择各类迭代算法。 8.4SPSS在非线性回归分析中的应用Bootstrapestimatesofstandarderror:采用样本重复法计算标准误。样本重复法需要顺序二次规划算法的支持。当选中该项时,SPSS将自动选中【SequentialquadraticProgramming(序列二次编程)】项。【EstimationMethod】框中列出了参数的两种估计方法:●SequentialQuadraticProgramming:顺序二次规划算法。该方法要求输入的参数如下。“Maximum”:最大迭代步数。“StepIimit”:最大步长。“Optimality”:目标函数的迭代误差限。“Functionprecision”:函数精度,应比目标函数的迭代误差限小。“Infinitestepsize”:当一次迭代中参数值的变化大于设置值,则迭代停止。●Levenberg-Marquardt:系统缺省设置,列文博格-麦夸尔迭代法。该法要求输入的参数如下。“Maximumiterations”:最大迭代步数。“Sum-of-squaresconvergence”:在一步迭代中目标函数残差平方和的变化比例小于设置的值时,迭代停止。“Parameterconvergence”:在一步迭代中参数的变化比例小于设置值时,迭代停止。Step09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 8.4SPSS在非线性回归分析中的应用8.4.3实例分析:股票价格的预测1.实例内容假定数据文件8-4中是三个公司股票在15个月期间的股市收盘价。一家投资公司希望建立一个回归模型用股票B和股票C的价格来预测股票A的价格。请建立回归模型分析。8.3SPSS在曲线拟合中的应用 8.4SPSS在非线性回归分析中的应用2.实例操作本案例要利用股票B和股票C的价格来预测股票A的价格,因此选择股票B和股票C为自变量,股票A为因变量来建立回归方程:其中,y、x1和x2分别表示股票A、股票B和股票C的价格。 8.4SPSS在非线性回归分析中的应用接着利用散点矩阵图来判断三个变量之间的关系。散点矩阵图8-29分为9个子图,它们分别描述了三只股票中两两股票价格之间的变化。可以看到,股票A的价格和其他两只股票的价格都存在显著线性关系,这是否表示只需要建立一个二元线性模型即可呢?观察自变量股票B和股票C之间散点图看到,这两只股票的价格也存在显著的影响关系,这说明了这两个因变量之间可能存在交叉影响。于是,建立如下非线性回归方程: 8.4SPSS在非线性回归分析中的应用 8.4SPSS在非线性回归分析中的应用3实例结果及分析(1)迭代过程表表8-17是回归方程参数估计的迭代过程记录。这里只进行了两次迭代就达到了精度要求。观察残差平方和“ResidualSumofSquares”的变化,可见随着迭代的进行,残差变得越来越小。但这一过程不是无限进行下去的,当进行了两步迭代后,残差以及各参数的估计值均稳定下去了,模型达到收敛标准。 8.4SPSS在非线性回归分析中的应用(2)参数估计值表8-18列出了回归模型中四个参数的迭代估计值、标准误差和95%的置信区间。于是,得到股票A关于股票B和C的预测回归模型为:可以看到,股票B和股票C都和股票A的价格变动方向相同,而且股票B对股票A的影响更大。股票B、C的交互项会影响股票A下跌,但这种影响不太明显。 8.4SPSS在非线性回归分析中的应用 8.4SPSS在非线性回归分析中的应用(3)参数的相关系数矩阵表8-19是模型中四个估计参数的相关系数矩阵。对于较复杂的模型,参数间的相关系数可用来辅助进行模型的改进,本案例无太多价值。 8.4SPSS在非线性回归分析中的应用(4)方差分析表表8-20是非线性回归分析的方差分析表。UncorrectedTotal为未修正的总误差平方和,其值等于23368.000,自由度等于15;它被分解成回归平方和23274.913和残差平方和93.087,自由度分别是4和11。CorrectedTotal是经修正的总误差平方和,其值等于474.933,自由度是14;表的最后一列是均方。表8-20最后一行公式:R2=1-残差平方和/修正平方和=0.804,这个结果说明了这个非线性回归模型的拟合效果,总体来看还是不错的。 8.4SPSS在非线性回归分析中的应用 8.4SPSS在非线性回归分析中的应用(5)线性回归和非线性回归的股票预测图图8-35显示了原始数据、线性回归模型、非线性回归模型三者的比较。其中,“股票A”是实际曲线,“PredictedValues”是本案例建立的非线性回归方程的预测曲线,“UnstandardizedPredictedValues”是不考虑股票B、C交互项的二元线性模型的预测曲线。可以明显看到,非线性回归的预测效果要好于二元线性回归的预测效果,说明了这里我们引入股票B、C交互项的合理性。 8.4SPSS在非线性回归分析中的应用 第9章SPSS的多元统计分析 9.1SPSS在因子分析中的应用9.1.1因子分析的基本原理1、方法概述人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识。为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。 9.1SPSS在因子分析中的应用2、基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量xx1,...,p且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k()个因子kpff,,,f的线性组合来12k表示,即有:xafafaf11111221kk1xafafaf22112222kk2xafafafppp1122pkkp上式就是因子分析的的数学模型,也可以用矩阵的形式表示为XAF 9.1SPSS在因子分析中的应用其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表ai(1,2,,;pj1,2,,)k达式中,因此又称为公共因子。A称为因子载荷矩阵,ij称为因子载荷。称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量fi(1ik,2,,)选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型XAF,忽略,以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。 9.1SPSS在因子分析中的应用3、基本步骤由于实际中数据背景、特点均不相同,故采用因子分析步骤上可能略有差异,但是一个较完整的因子分析主要包括如下几个过程:(1)确认待分析的原变量是否适合作因子分析因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。(2)构造因子变量将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。 9.1SPSS在因子分析中的应用(3)利用旋转方法使因子变量更具有可解释性将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。(4)计算因子变量得分实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。 9.1SPSS在因子分析中的应用根据上述步骤,可以得到进行因子分析的详细计算过程如下。①将原始数据标准化,以消除变量间在数量级和量纲上的不同。②求标准化数据的相关矩阵。③求相关矩阵的特征值和特征向量。④计算方差贡献率与累积方差贡献率。⑤确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。⑥因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。⑦用原指标的线性组合来求各因子得分。⑧综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。 9.1SPSS在因子分析中的应用9.1.2因子分析的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【DataReduction(降维)】→【Factor(因子)】命令,弹出【FactorAnalysis(因子分析)】对话框,这是因子分析的主操作窗口。 9.1SPSS在因子分析中的应用Step02:选择因子分析变量在【FactorAnalysis(因子分析)】对话框左侧的候选变量列表框中选择进行因子分析的变量,将其添加至【Variables(变量)】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【SelectionVariable(选择变量)】列表框中,并单击【Value】按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述性统计量单击【Descriptives】按钮,在弹出的对话框中可以选择输出描述性统计量及相关矩阵等内容。 9.1SPSS在因子分析中的应用具体选项含义如下:①【Statistics(统计量)】选项组●Univariatedescriptives:单变量描述统计量,即输出参与分析的各原始变量的均值、标推差等。●Initialsolution:初始分析结果,系统默认项。输出各个分析变量的初始共同度、特征值以及解释方差的百分比等。②【CorrelationMatrix(相关矩阵)】选项组●Coefficients:原始分析变量间的相关系数矩阵。●Significancelevels:显著性水平。输出每个相关系数相对于相关系数为0的单尾假设检验的概率水平。●Determinant:相关系数矩阵的行列式。●Inverse:相关系数矩阵的逆矩阵。●Reproduced:再生相关矩阵。输出因子分析后的相关矩阵以及残差阵。●Anti-image:象相关阵。包括偏相关系数的负数以及偏协方差的负数。在一个好的因子模型中,除对角线上的系数较大外,远离对角线的元素应该比较小。 9.1SPSS在因子分析中的应用KMOandBartlett'stestofsphericity:KMO和Bartlett检验。前者输出抽样充足度的Kaisex-Meyer-Olkin测度,用于检验变量间的偏相关是否很小。后者Bartlett球度方法检验相关系数阵是否是单位阵。如果是单位阵,则表明因子模型不合适采用因子模型。 9.1SPSS在因子分析中的应用Step04:选择因子提取方法单击【Extract(抽取)】按钮,在弹出的对话框中可以选择提取因子的方法及相关选项。①在【Method(方法)】框下拉列表框中可以选择因子提取方法。●Principalcomponents:主成份分析法。该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减。●Unweightedleastsquare:不加权最小二乘法。●Generalizedleastsquares:加权最小二乘法。●Maximumlikelihood:极大似然法。●Principalaxisfactoring:主轴因子提取法。●Alphafactoring:α因子提取法。●Imagefactoring:映象因子提取法。 9.1SPSS在因子分析中的应用②【Analyze(分析)】选项组●Correlationmatrix:相关系数矩阵,系统默认项。●Covariancematrix:协方差矩阵。③【Display(输出)】选项组:输出与因子提取有关的选项。●Unrotatedfactorsolution:输出未经旋转的因子提取结果。此项为系统默认的输出方式。●Screeplot:输出因子的碎石图。它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。 9.1SPSS在因子分析中的应用④【Extract(抽取)】选项组:输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。●Eigenvaluesover:指定提取的因子的特征值数目。在此项后面的矩形框中给出输入数值(系统默认值为1),即要求提取那些特征值大于1的因子。●Numberoffactors:指定提取公因子的数目。用鼠标单击选择此项后,将指定其数目。⑤MaximumiterationsforConvergence:在对应的文本框中指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。 9.1SPSS在因子分析中的应用Step05:选择因子旋转方法单击【Rotation】按钮,在弹出的对话框可以选择因子旋转方法及相关选项。 9.1SPSS在因子分析中的应用①【Method(方法)】选项组选择旋转方法。●None:不进行旋转,此为系统默认的选择项。●Varimax:方差最大旋转法。这是一种正交旋转方法。它使每个因子具有最高载荷的变量数最小,因此可以简化对因子的解释。●DirectOblimin:直接斜交旋转法。指定此项可以在下面的“Delta”矩形框中键入δ值,该值应该在0~1之间。系统默认的δ值为0。●Quartma:四次方最大正变旋转法。该旋转方法使每个变量中需要解释的因子数最少。●Equamax:平均正交旋转法。●Promax:斜交旋转方法。允许因子彼此相关。它比直接斜交旋转更快,因此适用于大数据集的因子分析。指定此项可以在下面的“Kappa”矩形框中键入“к”值,默认为4(此值最适合于分析)。②【Display(输出)】选项组:选择有关输出显示。●Rotatedsolution:旋转解。在Method栏中指定旋转方法才能选择此项。●Lodingplot(s):因子载荷散点图。指定此项将给出以前两因子为坐标轴的各变量的载荷散点图。③MaximumiterationsforConvergence:可以指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的文本框中输入指定值。 9.1SPSS在因子分析中的应用Step06:选择因子得分单击【Scores】按钮,在弹出的对话框中可以选择因子得分方法及相关选项。具体选项含义如下。 9.1SPSS在因子分析中的应用①【Saveasvariables(保存为变量)】选项组:将因子得分作为新变量保存在数据文件中。●Saveasvariables:将因子得分作为新变量保存在工作数据文件。中。程序运行结束后,在数据窗中显示出新变量。②【Method(方法)】选项组:指定计算因子得分的方法。●Regression:回归法。选择此项,其因子得分的均值为0。方差等于估计的因子得分与实际因子得分值之间的复相关系数的平方。●Bartlett:巴特利特法。选择此项,因子得分均值为0。超出变量范围的各因子平方和被最小化。●Anderson-Rubin:安德森一鲁宾法。选择此项,是为了保证因子的正交性。本例选中“Regression”项。③在输出窗中显示因子得分。●Displayfactorscorecoefficientmatrix:输出因子得分系数矩阵。 9.1SPSS在因子分析中的应用Step07:其他选项输出单击【Options】按钮,在弹出的对话框中可以选择一些附加输出项。具体选项含义如下。 9.1SPSS在因子分析中的应用①【MissingValues(缺失值)】选项组:选择处理缺失值方法。●Excludecaseslistwise:分析变量中带有缺失值的观测量都不参与后续分析。●Excludecasespairwise:成对剔除带有缺失值的观测量。●Replacewithmean:用该变量的均值代替工作变量的所有缺失值。②【CoefficientDisplayFormat(系数显示格式)】选项组:选择载荷系数的显示格式。●Sortedbysize:将载荷系数按其大小排列构成矩阵,使在同一因子上具有较高载荷的变量排在一起。便于得出结论。●Suppressabsolutevalueslessthan:不显示那些绝对值小于指定值的载荷系数。选择此项后还需要在该项的参数框中键入0~1之间的数作为临界值。系统默认的临界值为0.10。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 9.1SPSS在因子分析中的应用9.1.3实例分析:居民消费结构的变动1.实例内容消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题,而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。 9.1SPSS在因子分析中的应用2.实例操作数据文件9-1.sav是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。 9.1SPSS在因子分析中的应用3.实例结果及分析(1)描述性统计表下表显示了食品、衣着等这八个消费支出指标的描述统计量,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。 9.1SPSS在因子分析中的应用MeanStd.DeviationAnalysisN食品39.47502.297058衣着6.4875.865928家庭设备用品及服7.91252.877728务医疗保健6.36251.547298交通和通信8.17502.613028文化娱乐服务14.47502.300168居住12.16252.915458杂项商品与服务2.9125.524918 9.1SPSS在因子分析中的应用(2)因子分析共同度下表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全部都大于83%)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。 9.1SPSS在因子分析中的应用InitialExtraction食品1.000.842衣着1.000.842家庭设备用品及服务1.000.976医疗保健1.000.954交通和通信1.000.925文化娱乐服务1.000.953居住1.000.978杂项商品与服务1.000.947 9.1SPSS在因子分析中的应用(3)因子分析的总方差解释接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。在下页表中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947%。前三个因子的累计方差贡献率为94.196%,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。同时,ExtractionSumsofSquaredLoadings和RotationSumsofSquaredLoadings部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。 9.1SPSS在因子分析中的应用因子分析的总方差解释 9.1SPSS在因子分析中的应用(4)因子碎石图下图为因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。 9.1SPSS在因子分析中的应用 9.1SPSS在因子分析中的应用(5)旋转前的因子载荷矩阵下表中显示了因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。 9.1SPSS在因子分析中的应用旋转前的因子载荷矩阵 9.1SPSS在因子分析中的应用(6)旋转后的因子载荷矩阵下表中显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。 9.1SPSS在因子分析中的应用实施因子旋转后的载荷矩阵 9.1SPSS在因子分析中的应用可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。第二个公因子在居住、衣着上的载荷系数较大,代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。第三个公因子在杂项商品与服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类型消费因子。 9.1SPSS在因子分析中的应用(7)因子得分系数下表中列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数:因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8;因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8;因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.088X7+0.779X8; 9.1SPSS在因子分析中的应用因子得分系数 9.1SPSS在因子分析中的应用不仅如此,原数据文件中增加了FAC1_1、FAC2_1和FAC3_1三个变量,它们表示了三个因子在不同年份的得分值。为了进一步揭示因子的变动情况,绘制了如下图所示的因子变动趋势图。 9.2SPSS在聚类分析中的应用9.2.1聚类分析的基本原理1、方法概述聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。2、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。 •由上图可以看出,在2000~2007年期间,第一公因子除了在开始阶段有些下降外,此后每年都在逐步回升,并于2006年达到最高点。这主要是由于前几年国企改革和中国经济的软着陆,下岗职工大量增加,因此这段时间人们在享受性消费上的支出是减少的,而在其他基本生活消费上的支出增加。而随着经济的发展和收入的增加,享受性消费逐步增加,其他生活消费由于享受性消费的突然增加而减少后也会逐渐增加。第二公因子得分的起伏波动主要是由市民住房比重有升有降的变动引起的,根本原因还是和国家执行住房改革的力度密切相关,但由于住房改革政策的推行相对于其他政策而言较为缓慢,所以市民对住房消费存在一定的不确定性,这就造成了住房比重在总消费中的升降变化。第三公因子一直波动不已,这说明市民在杂项上的消费仍有较大的发展空间。 9.2SPSS在聚类分析中的应用(2)变量聚类变量聚类在统计学又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。 9.2SPSS在聚类分析中的应用3、距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大。 1qpqdij(q)xiaxjaa19.2SPSS在聚类分析中的应用常用的距离和相似系数定义如下:(1)距离如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程q度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:1qpq明氏(Minkowski)距离dqij()xxiajaa1当q=1时dx()maxxijiaja1ap即绝对距离12p2当q=2时dxij(2)(iaxja)a1即欧氏距离当时qpdxij(1)iaxjaa1即切比雪夫距离 9.2SPSS在聚类分析中的应用马氏(Mahalanobis)距离21dMXX()()()XXijijij其中表示指标的协差阵,即:()ijpp1nij(xxxxaiij)(aj)i,j1,,pn1a1nn11xxiaixjxajnnaa11马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。 9.2SPSS在聚类分析中的应用兰氏(Canberra)距离它是由Lance和Williams最早提出的,故称兰氏距离。1pxxiajadLij()i,j1,,npxxa1iaja此距离仅适用于一切的情况,这个距离有助于克服各指标之间量x0纲的影响,但没有考虑指标之间的相关性。ij 9.2SPSS在聚类分析中的应用(2)相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:●夹角余弦将任何两个样品Xi与X看成p维空间的两个向量,这两个向量的夹角余弦用cosj表示。则ijpxxiajaXicosa11cos1ijijpp22xxiajaaa11当cosij1,说明两个样品Xi与Xj完全相似;cosij接近1,说明Xi与Xj相似密切;cosij0,说明Xj与Xi完全不一样;cosij接近0,说明Xi与Xj差别大。 9.2SPSS在聚类分析中的应用●相关系数通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为:p()xxxxiaij()jaa1rr-11ijijpp22()()xxiaijxxjaaa11其中pp11xxijiaxxjappaa11聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等。本节主要介绍使用较多的快速聚类法和系统聚类法。 9.2SPSS在聚类分析中的应用9.2.2快速聚类法的SPSS操作详解K-均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下:1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心点。3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。5、重复步骤4,直到达到一定的收敛标准。这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 9.2SPSS在聚类分析中的应用Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【K-MeansCluster(K均值聚类)】命令,弹出【K-MeansClusterAnalysis(K均值聚类分析)】对话框,这是快速聚类分析的主操作窗口。 9.2SPSS在聚类分析中的应用Step02:选择聚类分析变量在【K-MeansClusterAnalysis(K均值聚类分析)】对话框左侧的候选变量列表框中选择进行聚类分析的变量,将其添加至【Variables(变量)】列表框中。同时可以选择一个标识变量移入【LabelCasesby(个案标记依据)】列表框中。Step03:确定分类个数在【NumberofClusters(聚类数)】列表框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。系统默认的聚类数为2.Step04:选择聚类方法在【Method(方法)】下拉列表框中可以选择聚类方法。系统默认值选择【Iterativeandclassify(迭代与分类)】项。●Iterateandclassify:选择初始类中心,在迭代过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。●Classifyonly:只使用初始类中心对观测量进行分类,聚类中心始终不变。 9.2SPSS在聚类分析中的应用Step05:聚类中心的输入与输出在主对话框中,【ClusterCenters(聚类中心)】选项组表示输入和输出聚类中心。用户可以指定外部文件或数据集作为初始聚类中心点,也可以将聚类分析的聚类中心结果输出到指定文件或数据集中。●Readinitial:要求使用指定数据文件中的观测量或建立数据集作为初始类中心。●WritefinalasFile:要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。 9.2SPSS在聚类分析中的应用在主对话框中单击Iterate(迭代)按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。●MaximumIterations:输入K-Means算法中的迭代次数。改变后面参数框中的数字,则改变迭代次数。当达到限定的迭代次数上限时,即使没有满足收敛判据,迭代也停止。系统默认值为10。选择范围为1-999。●ConvergenceCriterion:指定K-Means算法中的收敛标准,输入一个不超过1的正数作为判定迭代收敛的标准。系统缺省的收敛标准是0.02,表示当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之2%时迭代停止。提示:如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。●Userunningmeans:使用移动平均。选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心,这样可以节省迭代时间。 9.2SPSS在聚类分析中的应用Step07:输出聚类结果在主对话框中单击【Save(保存)】按钮,弹出【SaveNewVariables(保存新变量)】对话框,它用于选择保存新变量。●Clustermembership:在当前数据文件中建立一个名为“qcl_1”新变量。其值表示聚类结果,即各观测量被分配到哪一类。它的取值为1、2、3…的序号。●Distancefromclustercenter:在当前数据文件中建立一个名为“qcl_2”新变量。其值为各观测量与所属类中心之间的欧氏距离。 9.2SPSS在聚类分析中的应用Step08:其他选项输出在主对话框中单击【Option(选项)】按钮,弹出【Option(选项)】对话框,它用于指定要计算的统计量和对带有缺失值的观测量的处理方式。具体见图:①【Statistics(统计量)】选项组:选择输出统计量。●Initialclustercenters:初始聚类中心。●ANOVAtable:方差分析表。●Clusterinformationforeachcase:显示每个观测量的聚类信息。②【MissingValues(缺失值)】选项组:选择处理缺失值方法。●Excludecaseslistwise:分析变量中带有缺失值的观测量都不参与后续分析。●Excludecasespairwise:成对剔除带有缺失值的观测量。Step09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 9.2SPSS在聚类分析中的应用•9.2.3实例分析:全国环境污染程度分析为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。 9.2SPSS在聚类分析中的应用现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”、“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。 •打随书光盘中的数据文件9-2.sav,选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【K-MeansCluster(K均值聚类)】命令,弹出【K-MeansClusterAnalysis(K均值聚类分析)】对话框。•在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【LabelCasesby(个案标记依据)】列表框中。•在【NumberofClusters(聚类数)】文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。 •单击【Save(保存)】按钮,弹出【K-MeansClusterAnalysis:Save(K均值聚类分析:保存)】对话框;勾选【Clustermembership(聚类新成员)】和【Distancefromclustercenter(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框。 •单击【Options(选项)】按钮,弹出【K-MeansClusterAnalysis:Options(K均值聚类分析:选项】对话框;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框,单击【OK(确定)】按钮完成操作。 9.2SPSS在聚类分析中的应用实例结果及分析(1)快速聚类分析的初始中心SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。快速聚类分析的初始中心 9.2SPSS在聚类分析中的应用(2)迭代历史表下表显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。迭代历史表 9.2SPSS在聚类分析中的应用(3)聚类分析结果列表通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。•第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。•第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。•第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。 9.2SPSS在聚类分析中的应用(4)最终聚类分析中心表如下表所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。最终聚类分析中心 9.2SPSS在聚类分析中的应用(5)最终聚类中心位置之间的距离如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。最终聚类中心位置之间的距离 9.2SPSS在聚类分析中的应用(6)方差分析表如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证了聚类分析结果的有效性。方差分析表 9.2SPSS在聚类分析中的应用(7)聚类数目汇总如下表所示是聚类数据汇总表,显示了聚类分析最终结果中各个类别的数目。其中第一类的数目最多,等于20;而第三类的数目最少,只有4个。聚类数目汇总表 9.2SPSS在聚类分析中的应用9.2.4系统聚类法的SPSS操作详解系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。同时根据聚类过程不同,又分为分解法和凝聚法。分解法:开始把所有个体(观测量或变量)都视为同属一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。 9.2SPSS在聚类分析中的应用SPSS中的系统聚类法采用的凝聚法,它的算法步骤具体如下。1、首先将数据各自作为一类(这时有n类),按照所定义的距离计算各数据点之间的距离,形成一个距离阵;2、将距离最近的两条数据并为一个类别,从而成为n-1个类别,计算新产生的类别与其他各个类别之间的距离或相似度,形成新的距离阵;3、按照和第二步相同的原则,再将距离最接近的两个类别合并,这时如果类的个数仍然大于1,则继续重复这一步骤,直到所有的数据都被合并成一个类别为止。 9.2SPSS在聚类分析中的应用在系统聚类中,当每个类别有多于一个的数据点构成时,就会涉及如何定义两个类间的距离问题。根据距离公式不同,可能会得到不同的结果,这也就进一步构成了不同的系统聚类方法。常用的方法有如下几种。●Between-groupslinkage:组间平均距离法。●Within-groupslinkage:组内平均距离法。●Nearestneighbor:最短距离法。●Furthestneighbor:最远距离法。●Centroidclustering:重心法。●Medianclustering:中间距离法。●Ward'smethod:离差平方和法。 9.2SPSS在聚类分析中的应用SPSS具体操作步骤如下:Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【HierarchicalCluster(系统聚类)】命令,弹出【HierarchicalClusterClusterAnalysis(系统聚类分析)】对话框,这是系统聚类分析的主操作窗口。 9.2SPSS在聚类分析中的应用Step02:选择聚类分析变量在【HierarchicalClusterClusterAnalysis(系统聚类分析)】对话框左侧的候选变量列表框中选择进行系统聚类分析的变量,将其添加至【Variable(s)(变量)】列表框中。同时可以选择一个标识变量移入【LabelCasesby(标注个案)】列表框中。Step03:选择聚类类型在【Cluster(分群)】选项组中可以选择聚类类型。系统默认值是【Cases(个案0】选项。●Cases:对观测量(样品)进行聚类,即Q型聚类。●Variable:对变量进行聚类,即R型聚类。Step04:选择输出类型在【Display(输出)】选项组中可以选择输出类型。系统默认值是【Statistics(统计量)】欧诺供给量和【Plots(图)】选项。●Statistic:输出主对话框【Statistics】按钮中设置的的统计量。●Plots:输出主对话框中【Plots(图)】按钮中聚类图形。 9.2SPSS在聚类分析中的应用Step05:基本统计量输出选择单击【Statistics】按钮,在弹出的对话中可以选择进行系统聚类分析的基本统计量。具体选项含义如下。 9.2SPSS在聚类分析中的应用①【Agglomerationschedule(合并进程表)】:输出聚类过程表,系统默认选项。显示聚类过程中每一步合并的类或观测量,反映聚类过程中每一步样品或类的合并过程。②【Proximitymatrix(相似性矩阵)】:输出各类之间的距离矩阵。以矩阵形式给出各项之间的距离或相似性测度值。产生什么类型的矩阵(相似性矩阵或不相似性矩阵)取决于在【Method(方法)】菜单中【Measure(度量标准)】栏中的选择。③【ClusterMembership(聚类成员)】栏可以选择聚类数目相关的输出项:●【None(无)】:不显示类成员表,它是系统默认选项。●【Singlesolution(单一方案)】:选择此项并在对应的【Numberofclusters(聚类数)】参数框中指定分类数,这里要求分类数是一个大于1的整数。例如指输入数字“4”,则会在输出窗中显示聚为4类的分析结果。●【Rangeofsolutions(方案范围)】:选择此选项并在下边的【Minimumnumberofclusters(最小聚类数)】和【Maxmumnumberofclusters(最大聚类数)】参数框中输入最小聚类数目和最大聚类数目。它表示分别输出样品或变量的分类数从最小值到最大值的各种分类聚类表。输入的两个数值必须是不等于l的正整数,最大类数值不能大于参与聚类的样品数或变量总数。 9.2SPSS在聚类分析中的应用Step06:聚类统计图形输出选择单击【Plots】按钮,弹出的对话框如下图所示。这里可以选择进行系统聚类分析的统计图形。可选择输出的统计图表有两种,一个是树形图,一个是冰柱图。具体选项含义如下。 9.2SPSS在聚类分析中的应用①【Dendrogram(树状图)】:显示树形图。②【Icicle(冰柱)】:显示冰柱图形。对于冰柱图的具体选项还可以进一步用以下选择项来确定。●Allclusters:显示全部聚类结果的冰柱图。可用此种图查看聚类的全过程。但如果参与聚类的个体很多会造成图形过大。●Specifiedrangeclusters:限定显示的聚类范围。当选择此项时,在下面的【Startcluster(开始聚类)】、【Stopcluster(停止聚类)】和【By(排序标准)】后的参数框中输入要求显示聚类过程的开始聚类数、终止聚类数及步长。输入到参数框中的数字必须是正整数。例如,输入的结果是:3,9,2,生成的冰柱图从第三步开始,显示第三、五、七、九步聚类的情况。●None:不输出冰校图。同时,冰柱图显示方向可以在【Orientation(方向)】选项组中确定。●Vertical:纵向显示的冰柱图。●Horizontal:横向显示的冰柱图。 9.2SPSS在聚类分析中的应用Step07:聚类方法选择单击【Method(方法)】按钮,弹出的对话框如下图所示。在对话框中可以设定聚类方法、距离测度的方法、数值变换方法等内容。具体选项含义如下。 9.2SPSS在聚类分析中的应用①【ClusterMethod(聚类方法)】下拉列表框:可以选择聚类方法,具体如下。●Between-groupslinkage:组间平均距离法。系统默认选项。合并两类的结果使所有的两类的平均距离最小。●Within-groupslinkage:组内平均距离法。当两类合并为一类后,合并后的类中的所有项之间的平均距离最小。●Nearestneighbor:最近距离法。采用两类间最近点间的距离代表两类间的距离。●FurthestNeighbor:最远距离法。用两类之间最远点的距离代表两类之间的距离。●Centroidclustering:重心法。定义类与类之间的距离为两类中各样品的重心之间的距离。●Medianclustering:中位数法。定义类与类之间的距离为两类中各样品的中位数之间的距离。●Ward’smethod:最小离差平方和法。聚类中使类内各样品的离差平方和最小,类间的离差平方和尽可能大。 9.2SPSS在聚类分析中的应用②【Measure(度量标准)】选项组:可以选择距离测度方法,具体如下。【Interval(区间)】参数框适合于等间隔测度的连续性变量。单击它的右侧框边向下箭头展开下拉菜单,在菜单中选择距离测度方法,具体如下。●Euclideandistance:欧氏距离。●SquaredEuclideandistance:欧氏距离平方。两项之间的距离是每个变量值之差的平方和。系统默认项。●Cosline:余弦相似性测度,计算两个向量间夹角的余弦。●Pearsonconelation:皮尔逊相关系数。它是线性关系的测度,范围是-1~+1。●Chebychev:切比雪夫距离。●Block:曼哈顿(Manhattan)距离,两项之间的距离是每个变量值之差的绝对值总和。●Minkowski:闵科夫斯基距离。●Customized:自定义距离。【Counts(计数)】参数框适合于计数变量(离散变量)。单击它右侧的向下箭头,展开下拉菜单的方法选择以下不相似性测度的方法。具体如下:●Chi-squaremeasure:卡方测度。用卡方值测度不相似性。系统默认选项。●Phi-squaremeasure:两组频数之间的Ф2测度。 9.2SPSS在聚类分析中的应用【Binary(二分数)】参数框适合于二值变量。首先应该明确,对二值变量,系统默认用l表示某特性出现(或发生),用0表示某特性不出现(或不发生)。单击它的右侧框边向下箭头展开下拉菜单,在菜单中选择侧度方法。具体如下:●Euclideandistance:二元变量欧氏距离。●SquaredEuclideandistance:二元变量欧氏距离的平方。●Sizedifference:不对称指数。其值范围在0~1之间。●Patterndifference:不相似性测度,范围为0~1。●Variance:方差不相似性测度。●Dispersion:离散测度,其范围为-1~1。●Shape:距离测度。范围无上下限。●Simplematching:简单匹配测度。●Phi4-pointcorrelation:皮尔逊相关系数二元变量模拟,其值范围为-1~l。●Lambda:其值是GoodmanandKruskal的λ值,它是一种相似性测度。●Anderberg’D:安德伯格D系数。●Dice:戴斯匹配系数。●Hamann:哈曼匹配系数。 9.2SPSS在聚类分析中的应用●Jaccard:杰卡得相似比。●Kulczynski1:库尔津斯基匹配系数。●Kulczynski2:库尔津斯基条件概率测度。●LanceandWilliams:兰斯-威廉斯测度。●Ochiai:该指数是余弦相似性测度的二元形式。范围为0~l。●RogersandTanimoto:罗杰斯-谷本匹配系数。●RusselandRao:它是内积(点积)的二元形式。对匹配与不匹配都给予相等的权重。●SokalandSneathl~5:第一种~第五种索克尔-思尼斯匹配系数。●Yule’sY:尤利Y综合系数。●Yule’sQ:尤利Q综合系数。。从上述选项中可以选择一种测度方法。同时,还可以改变表示某事件发生与不发生的值。在【Present(存在)】和【Absent(不存在)】的参数框中键入用户自己定义的值。定义后,系统将忽略其他值。如果不进行自定义,那么,1代表某事件发生“Present”,0代表某事件不发生“Absent”。 9.2SPSS在聚类分析中的应用③【TransformValues(转换数)】选项组:可以选择数据标准化的方法。注意只有等间隔测度的数据(选择了Interval)或计数数据(选择了Counts)才可以进行标准化。具体如下:●None:不进行标准化。系统默认值。●Zscores:数据标准化到Z分数。标准化后变量均值为0,标准差为1。●Range-1to1:把数据标准化到-1到+1范围内。●Range0to1:把数据标准化到0到+1范围内。●Maximummagnitudeof1:把数据标淮化到最大值为1。表示各变量除以最大值。●Meanof1:把数据标准化到均值为1。表示各变量除以均值。●Standarddeviationof1:把数据标准化到标准差为1。表示各变量除以标准差。在选择了上述标准化方法后,要在选项组中点选【Byvariable(对变量)】或【Bycase(对样品)】单选钮实施标准化。 9.2SPSS在聚类分析中的应用④【TransformMeasure】选项组:可以选择测度的转换方法,具体如下。●AbsoluteValues:把距离值取绝对值。●Changesign:把相似性值变为不相似性值或相反。●Rescalebo0~1range:重新调整测度值到范围0~l。对于已经计算了相似性或不相似性测度的数据,一般不再使用此方法进行转换。如果使用的是已经存在的矩阵,可以选择此类选择项,对输入矩阵进行必要的转换。 9.2SPSS在聚类分析中的应用Step08:聚类结果保存选择单击【Save】按钮,在弹出的对话框中可以将聚类结果用新变量保存在当前工作数据文件中。具体选项含义如下。 9.2SPSS在聚类分析中的应用●None:不建立新变量。●Singlesolution:单个结果输出。生成一个新变量,表明每个样品在聚类之后所属的类。在【Numberofclusters(聚类数)】的矩形框中指定类数。●Rangeofsolutions:选择此选项并在下边的【Minimumnumberofclusters(最小聚类数)】和【Maxmumnumberofclusters(最大聚类数)】文本框中输入最小聚类数目和最大聚类数目。它表示分别生成样品或变量的分类数从最小值到最大值的各种分类聚类变量。例如输入结果是“4”和“6”时,它表示在聚类结束后在原变量后面增加了3个新变量分别表明分为4类时、分为5类时和分为6类时的聚类结果。即聚为4、5、6类时各样品分别属于哪一类。Step09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 9.2SPSS在聚类分析中的应用9.2.5实例分析:不同地区信息基础设施发展状况的评价1.实例内容要研究世界不同地区信息基础设施的发展状况,这里选取了发达地区、新兴工业化地区、拉美地区、亚洲地区中国家、转型地区等不同类型的20个国家的数据。描述信息基础设施的变量主要有六个。(1)Call—每千人拥有电话线数。(2)movecall—每千房居民蜂窝移动电话数。(3)fee—高峰时期每三分钟国际电话的成本。(4)Computer—每千人拥有的计算机数。(5)mips—每千人中计算机功率(每秒百万指令)。(6)net—每千人互联网络户主数。 9.2SPSS在聚类分析中的应用2.实例操作现在要分析世界各个地区的信息基础设施的发展状况,案例中选择了“每千人拥有电话线数”、“每千房居民蜂窝移动电话数”等六个指标来反映不同国家信息设施的发展情况,同时选择了近二十个地区的数据加以研究。这个问题也属于典型的多元分析问题,需要利用多个指标来分析地区之间信息基础设施发展的差异。因此,可以利用系统聚类法。 9.2SPSS在聚类分析中的应用3实例结果及分析(1)聚类过程表SPSS软件首先给出了进行系统聚类分析的过程表。下表中的的第一列“Stage”列出了聚类过程的步骤号,第二列“Cluster1”和第三列“Cluster2”列出了某一步骤中哪些国家参与了合并。例如从结果中看出,在第一步中,第十个样品(Brazil)和第十二个样品(Mexico)首先被合并在一起。第四列“Coefficients”列出了每一步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。第五列“Cluster1”和第六列“Cluster2”表示参与合并的国家(类别)是在第几步中第一次出现,0代表该记录是第一次出现在聚类过程中。第七列“NextStage”表示在这一步骤中合并的类别,下一次将在第几步中与其他类再进行合并。 9.2SPSS在聚类分析中的应用 9.2SPSS在聚类分析中的应用(2)聚类分析结果表在系统聚类法的聚类结果中可以看到,聚类结果分为三大类。第Ⅰ类:美国、瑞典、丹麦。第Ⅱ类:日本、德国、瑞士、新加坡、中国台湾、韩国、法国、英国。第Ⅲ类:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。 9.2SPSS在聚类分析中的应用(3)树形图上述已给出了相关聚类结果,最后用树形图(Dendrogram)直观反映整个聚类过程和结果,如图9-37所示。从图中,可以明显看到每个样品从单独一类,逐次合并,一直到全部合并成一大类。 9.3SPSS在判别分析中的应用9.3.1判别分析的基本原理1、方法概述判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。2、基本原理判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。其中,距离判别分析是一种常见的判别分析方法。它的基本思想是:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。 9.3SPSS在判别分析中的应用例如两个总体的距离判别法中,设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。Xxx(,,)今任取一个样品,实测指标值为1p,问X应判归为哪一类?首先计算X到G1、G2总体的距离,分别记为DXG(,)1和D(,)XG2,按距离最近准则判别归类,则可写成:XGD,(,)(,)当XGDXG112XGD,(,)(,)当XGDXG212待判,当DXG(,)DXG(,)12D(,)XGD(,)XG然后比较1和2大小,按距离最近准则判别归类。 9.3SPSS在判别分析中的应用9.3.2判别分析的SPSS操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【Discriminant(辨别)】命令,弹出【DiscriminantAnalysis(辨别分析)】对话框,这是判别分析的主操作窗口。 9.3SPSS在判别分析中的应用Step02:选择判别分析变量在【DiscriminantAnalysis(辨别分析)】对话框左侧的候选变量中选择进行判别分析的变量,将其添加至【Independents(自变量)】列表框中,将其作为自变量。Step03:指定分类变量及范围在主对话框的候选变量中选择分类变量(离散型变量)移入【GroupingVariable(分组变量)】框中。此时它下面的【DefineRange(定义范围)】按钮加亮,单击该按钮,屏幕弹出一个小对话框,提供指定该分类变量的数值范围。●Minimum:输入最小值。●Maximum:输入最大值。 9.3SPSS在判别分析中的应用Step04:选择判别分析方法在主对话框的【Independents(自变量)】列表框下面有两个按钮,它们提供了判别分析方法选择。●Enterindependenttogether:建立所选择的所有变量的判别式。当认为所有自变量都能对观测量特性提供丰富的信息时使用该选择项。系统默认设置。●Usestepwisemethod:采用逐步判别法作判别分析。点选该项后,主菜单中的【Method(方法)】按钮加亮。可以进一步选择判别分析方法(见第步)。如果希望使用一部分观测量进行判别函数的推导,选择一个能够标记需选择的这部分观测量的变量将其移入【SelectionVariables(选择变量)】框中;再单击其右侧的Valve按钮,展开【SetValue(设置值)】对话框,键入能标记的变量值,如图所示。 9.3SPSS在判别分析中的应用Step05:基本统计量输出选择单击【Statistics】按钮,在弹出的对话框中可以选择进行判别分析的基本统计量输出。具体选项含义如下。 9.3SPSS在判别分析中的应用①【Descriptives(描述性)】选项组:选择输出描述统计量。●Means:输出各类中各自变量的均值、标准差和各自变量总样本的均值、标准差。●UnivariateANOVAs:单因素方差分析。对各类中同一自变量进行均值检验,输出单因素方差分析结果。●Box’sM:对各类协方差矩阵相等的假设进行检验。②【Functioncoefficients(函数系数)】选项组:选择输出判别函数的系数。●Fisher’s:输出Fisher函数系数。对每一类给出一组系数,并给出该组中判别分数最大的观测量。●Unstandardized:未经标准化处理的判别函数系数。③【Matrices(矩阵)】选项组:选择输出自变量的系数矩阵。●Within-groupscorrelationmatrix:类内相关矩阵。●Within-groupscovariancematrix:类内协方差矩阵●Separate-groupscovariancematrices:对每一类分别输出协方差矩阵。●Totalcovariancematrix:总样本的协方差矩阵。 9.3SPSS在判别分析中的应用Step06:设置逐步判别分析选项点选【Usestepwisemethod(使用步进式方法)】单选钮后,就表示采用逐步判别法进行分析。接着单击主菜单中的【Statistics】按钮,在弹出的对话框图中可以选择逐步判别分析的选项。具体选项含义如下。 9.3SPSS在判别分析中的应用①【Method(方法)】选项组:选择变量进入判别函数的方式。●Wilks’lambda:每步都选择Wilk的λ统计量最小的变量进入判别函数。●Unexplainedvariance:每步都选择使类间不可解释的方差和最小的变量进入判别函数。●Mahalanobisdistance:每步都选择使靠得最近的两类间的Mahalanobis距离最大的变量进入判别函数。●SmallestFratio:每步都选择使任何两类间的“最小F值”达到最大的变量进入判别函数。●Rao’sV:每步都选择使Rao’sV统计量产生最大增量的变量进入判别函数。选择此种方法后,应该在该项下面的【V-to-enter】文本框中输入这个增量的指定值。当某变量导致的V值增量大于指定值的变量时,该变量进入判别函数。 9.3SPSS在判别分析中的应用②【Criteria(标准)】选项组:选择逐步判别停止的条件。●UseFvalue:使用F值,系统默认选项,当加入一个变量(或剔除一个变量)后,对在判别函数中的变量进行方差分析。当计算的F值大于指定的Entry值时,该变量保留在函数中。默认值是Entry为3.84。当该变量使计算的F值小于指定的Removal值时,该变量从函数中剔除。默认值是Removal为2.71。设置这两个值时应该要求Entry值大于Removal值。●UseprobabilityofF:使用F检验的概率决定变量是否加入函数或被剔除。当计算的F检验的概率小于指定的Entry值时,该变量加入函数中。当该变量使计算的F值的概率大于指定的Removal值时,该变量从函数中剔除。③【Display(输出)】栏选择逐步选择变量的过程和最后结果的显示:●Summaryofsteps:显示每步选择变量之后各变量的统计量结果。●FforPairwisedistances:显示两类之间的F比值矩阵。 9.3SPSS在判别分析中的应用Step07:设置分类参数与判别结果单击【Classify】按钮,在弹出的对话框中可以设置判别分析的分类参数及结果。具体选项含义如下。 9.3SPSS在判别分析中的应用①【PriorProbabilities(先验概率)】选项组:选择先验概率。●Allgroupsequal:各类先验概率相等,系统默认选项。若分为m类,则各类先验概率均为l/m。●Computefromgroussizes:基于各类样本量占总样本量的比例计算先验概率。②【UseCovarianceMatrix(使用协方差矩阵)】栏选择分类使用的协方差矩阵:●Within-groups:使用合并组内协方差矩阵进行分类。●Separate-groups:使用各组协方差矩阵进行分类。③【Display(输出)】选项组:选择输出分类结果。●Casewiseresults:输出每个观测量的判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。选择此项后,下面的【Limitscasesto(将个案限制在前)】项被激活,可以在它后面的文本框中输入观测量数n。选择此项则仅输出前n个观测量。●Summarytable:输出分类的小结表。●Leave-one-outclassification:输出对每一个观测量进行分类的结果,所依据的判别函数是由除该观测量以外的其他观测量导出的。 9.3SPSS在判别分析中的应用④【Plots(图)】选项组:选择输出统计图。●Combined-groups:生成全部类的散点图。该图是根据前两个判别函数值作的散点图。如果只有一个判别函数,就输出直方图。●Separate-groups:对每一类生成一张散点图。如果只有一个判别函数,就输出直方图。●Territorialmap:生成根据判别函数值将观测量分到各类去的边界图。每一类占据一个区域。各类均值在各区中用星号标出。如果仅有一个判别函数,则不作此图。⑤缺失值处理方式。●Replacemissingvaluewithmean:用该变量的均值代替缺失值。 9.3SPSS在判别分析中的应用Step08:结果保存设置单击【Save】按钮,在弹出的对话框中可以设置判别分析的结果输出,具体选项含义如下。 9.3SPSS在判别分析中的应用●Predictedgroupmembership:建立新变量(系统默认变量名是dis_1)保存预测观测量所属类的值。●Discriminantscore:建立新变量保持判别分数。●Probabilitiesofgroupmembership:建立新变量保存各个观测量属于各类的概率值。有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。 9.3SPSS在判别分析中的应用Step09相关统计量的Bootstrap估计单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。●标准化典则判别函数系数表支持标准化系数的Bootstrap估计。●典则判别函数系数表支持非标准化系数的Bootstrap估计。●分类函数系数表支持系数的Bootstrap估计。Step10:单击【OK】按钮,结束操作,SPSS软件自动输出结果。 9.3SPSS在判别分析中的应用9.3.3实例分析:全国30个省市经济增长差异研究1.实例内容现要研究全国30个省市地区经济增长差异性,收集相关数据见数据文件9-3.sav。表中相关变量的含义分别是:x1—经济增长率(%)、x2—非国有化水平(%)、x3—开放度(%)、x4—市场化程度(%)。其中,辽宁、河北等省市归为一类,而黑龙江、吉林等省市归为另一类。请分析江苏、安徽和浙江的类别。 9.3SPSS在判别分析中的应用2.实例操作由于案例中已经将北京、上海、四川等省市按照经济增长特点分类,现在需要将另外三个待估省市:江苏、安徽和陕西分类。因此,可以利用判别分析来判别它们的归属。 9.3SPSS在判别分析中的应用3实例结果及分析(1)判别分析概述表SPSS软件首先给出了进行判别分析的概述表9-20。可以看到,参加分析的变量总数为30,有效观测量数为27,占90%;包含缺失值或分类变量范围之外的观测量数为3,占10%。 9.3SPSS在判别分析中的应用(2)分组统计表下表给出了观测量按照类别不同进行的基本描述性统计量输出,其中包括均值(Mean)、均方差(Std.Deviation)和有效观测量的个数等。可以从结果初步看到,不同类之间省市经济指标的差异比较明显,例如第一类省份的“非国有化水平”指标均值等于65.0282,而第二类却只有40.1081。 9.3SPSS在判别分析中的应用(3)类均值相等检验表接着给出了不同类之间“经济增长率”等四个指标均值相等的检验结果如下表所示。从结果看到,它们的相伴概率P值都远小于显著性水平0.05,因此,可以认为两个类指标之间的均值存在显著差异,可以进行判别分析。 9.3SPSS在判别分析中的应用(4)判别分析特征值表下表为判别函数的特征值表。从表可见,本案例仅有一个判别函数用于分析,特征值(Eigenvalue)为1.479,方差百分比(%ofVariance)为100%,方差累计百分比(Cumulative%)为100%,典型相关系数(CanonicalCorrelation)为0.771。 9.3SPSS在判别分析中的应用(5)Wilks'λ表下表是对判别函数的显著性检验表。其中Wilks‘λ值等于0.403,卡方统计量(Chi-square)等于20.878,自由度(df)等于4,相伴概率P值(Sig.)远小于显著性水平0.05,因此认为判别函数有效。• 9.3SPSS在判别分析中的应用(6)标准化判别函数系数下表给出了标准化判别函数的系数,于是得到标准化判别函数如下:Function=0.190*经济增长率+0.242*非国有化水平+0.360*开放度+0.648*市场化程度根据判别系数看到,“市场化程度”变量对判别结果的影响是最大的,这是因为它的系数值最大,等于0.648;相反的,“经济增长率”变量对判别结果的影响最小。 9.3SPSS在判别分析中的应用(7)结构矩阵表结构矩阵表如下表所示,是判别变量与标准化函数之间的合并类内相关系数,变量按照相关系数的绝对值大小排列,表面判别变量与判别函数之间的相关性,如变量“市场化程度”与判别函数关系最密切。 9.3SPSS在判别分析中的应用(8)非标准化判别函数系数下表给出了非标准化判别函数系数,非标准判别函数为:Function=-7.263+0.060*经济增长率+0.017*非国有化水平+0.028*开放度+0.081*市场化程度根据这个判别函数代入各变量数值可以计算出判别值。 9.3SPSS在判别分析中的应用(9)判别函数类心表下表给出的是按照非标准判别函数计算的函数类心,即判别函数在各类均值处的判别分数值。可以看到,在两个类心处,判别分数值差异较大。 9.3SPSS在判别分析中的应用(10)分类过程概述表下表给出了分类过程概述情况。可以看到,共有30个观测量参与了分类过程,没有缺失变量存在。 9.3SPSS在判别分析中的应用(11)类先验概率表下表给出了类先验概率表,按照先前的判别分析设置,先验概率都等于0.5。 9.3SPSS在判别分析中的应用(12)分类函数系数表下表给出了Fisher线性判别函数的系数,因此可以建立各类线性判别模型。类型一:F1=-54.567+1.812*经济增长率-0.337*非国有化水平-0.058*开放度+1.380*市场化程度类型二:F2=-36.746+1.669*经济增长率-0.377*非国有化水平-0.119*开放度+1.188*市场化程度将代判别的省市的各类经济指标代入上述两个判别函数进行计算,二者比较大小,如果F1>F2,对应的省市归入1类;否则,当F1F2,对应的省市归入1类;否则,当F1OutputVariable(输入变量->输出变量)】列表框,同时在【OutputVariable(输出变量)】复选框中填写输出赋值变量名称“等级”。同时单击【Change】按钮进行赋值转换。单击【OldandNewValue按钮,弹出重编码规则设置对话框。接着按照等级转换赋值规则进行变量的重新赋值工作。设置完成后,单击【Continue(继续)】按钮返回主对话框最后,单击【OK(确定)】按钮,操作完成。此时,原数据文件新增加了“天数”变量。 2.问题二操作详解对于问题二,大学生获取传统文化来源主要是从学校、家庭或自学等。因此本问题主要要分析不同学习途径对大学生传统文化了解程度是否存在显著性影响。由于文化来源途径和了解程度等级都是定性数据,因此可以考虑采用列联表分析中的行、列变量相关程度检验。具体操作步骤如下: 选择菜单栏中的【Analyze(分析)】→【DescriptiveStatistics(描述统计)】→【Crosstabs(交叉表)】命令,弹出【Crosstabs(交叉表)】对话框。 14.3实例的SPSS输出结果详解1.问题一结果(1)描述性统计量表表14-1是被调查者对中国传统文化了解程度得分的描述性统计量输出表,其中包括了均值、中位数、方差等基本统计量。可以看到,大学生对传统中国文化了解程度得分均值等于57.18分,标准差为12.824,偏度为-0.116,峰度为-0.278等. (2)直方图SPSS输出结果也包括直方图。从图形特征看,数据呈稍微左偏分布。根据附带的正态分布曲线可见了解程度得分近似服从正态分布N(57.18,12.824),说明大学生对中国传统文化的了解程度差异较大。 2问题二结果(1)来源途径与了解程度等级的列联表表14-2是来源途径与了解程度等级的列联表,表中数据列出了处于不同了解程度等级及来源途径的学生人数。可以看到,以“学校教育”为主要来源途径的学生大多数对传统中国文化了解程度位于“很不了解”和“不太了解”的等级,而采用“自学”方式来获取传统文化的学生对其了解程度都比较高,多数学生都“比较了解”或“很了解”传统文化。 (2)独立性检验上面的列联表只是从数值大小的角度说明了不同来源途径的学生对传统中国文化了解程度差异很大,但究竟这种级别有无显著性差异,还是要借助于卡方检验。表14-3是“来源途径”对“了解程度等级”有无显著性影响的卡方检验结果。卡方检验的零假设是不同来源途径对传统文化了解程度没有显著性差异。系统默认显著性水平为0.05,由于卡方检验概率P值都小于0.05,则拒绝零假设,认为来源途径对学生了解中国传统文化程度有显著性差异。这表示应努力激发学生对传统文化的兴趣,只有建立在兴趣爱好的基础上,学生即使花费自己的工作学习时间,也会自学中国传统文化,提高自身的文化修养水平。 第15章SPSS在旅游业中的应用 15.1实例提出:国内旅游收入影响因素考虑到国内旅游收入主要影响因素有收入水平、休假政策、交通状况等方面的影响。表15-1是依据文献资料,选取反映上述方面的统计指标,包括国内旅游收入、国内生产总值、旅游人均花费、城市居民旅游花费、农村居民旅游花费、公路线路里程、铁路线路里程。特别的为了分析1999年休假制度改革对旅游收入的影响,增加了虚拟变量“制度”来分析它对于旅游收入的影响。 15.2实例的SPSS软件操作详解本实例要分析国内旅游收入(Y)的影响因素,因此可以建立旅游收入与GDP、旅游人均花费、公路里程数等变量之间的回归模型。通过回归系数的大小来探讨这些因素对旅游收入的影响大小。但是根据相关性分析结果表15-2看到,自变量之间存在着高度的线性相关性。因此本实例直接利用回归分析模型来分析影响因素可能出现多重共线性的现象,造成部分回归系数不显著,因此首要需要考虑的是如何处理变量之间的多重共线性问题。 因子分析方法是指用较少个数的公共因子的线性函数与特定因子之和来表达原解释变量的分量,以达到降低维数并能合理地解释原解释变量。本实例中,利用因子分析法中的主成分分析法消除经济因素变量的多重共线性问题,使得经济因素的解释变量在降低维度的同时消除多重共线性。通过分析因子和“制度”虚拟变量对国内旅游收入的影响来探讨旅游收入的影响因素。具体操作步骤如下: Step01:打开数据文件打开或建立数据文件15-1.sav。同时单击数据浏览窗口的【VariableView(变量视图)】选项,检查各个变量的数据结构定义是否合理,是否需要修改调整。 Step02:因子分析在候选变量列表框中选择X1、X2、…X6变量设定为因子分析变量,将其添加至【Variables(变量)】列表框中。单击【Descriptives】按钮,勾选【KMOandBartlett’stestofsphericity(KMO和Bartlett的球形检验)】复选框,表示进行因子分析适用性的巴特利特球度检验,其他选项保持系统默认,单击【Continue】按钮返回。在主话框中,单击【Score按】钮,勾选【Saveasvariables(保存为变量)】复选框,表示采用回归法计算因子得分并保持在原文件中。其他选项保持系统默认,单击【Continue】按钮返回主对话框。单击【OK】按钮,完成本步操作。 Step03:回归分析在第二步因子分析中得到了所有旅游收入影响因素综合得分Z,这些因子得分充分反映了这些指标在不同年份的综合发展值。于是可以考虑利用它和制度虚拟变量来对国内旅游收入进行回归分析。具体模型如下:yzx0127其中,y表示国内旅游收入,z表示综合旅游影响值,x7表示虚拟变量。 选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Linear(线性)】命令,弹出【LinearRegression(线性回归)】对话框,在左侧的候选变量列表框中选择“y”变量设定为因变量,将其添加至【Dependent(因变量)】列表框中。在左侧的候选变量列表框中选择“z”和“x7”变量设定为自变量,将其添加至【Independent(s)(自变量)】列表框中。最后,单击【OK(确定)】按钮,操作完成。 12.3实例的SPSS输出结果详解(1)巴特利特球度检验和KMO检验首先表15-3显示了对数据进行因子分析适用性检验的结果。巴特利特球度检验统计量的观测值等于119.915,。如果显著性水平等于0.05,由于概率P值小于显著性水平,应拒绝原假设,认为相关系数矩阵与单位阵有显著差异。同时,KMO值为0.763,根据Kaiser给出的KMO度量标准可知原有变量适合进行因子分析。 (2)因子分析共同度表15-6是因子分析的共同度,显示了所有变量的共同度数据。如果对原有六个变量如果采用主成分分析法提取所有七个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1。接着,第二列列出了按指定提取条件提取特征根时的共同度。可以看到,所有变量的绝大部分信息可被因子解释,这些变量信息丢失较少。 (3)因子分析的总方差解释接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表15-7所示。结果表明,由于数据的相关性较强,选择第一个因子为主因子即可,因为它解释了原有六个变量总方差的84.449%。 (5)因子载荷矩阵表15-8显示了因子载荷矩阵。通过载荷系数大小可以看到不同公共因子所反映的主要指标的区别。从结果看,第一因子在所有变量的载荷系数都较大,基本都在0.80以上,说明它主要反映了旅游收入的综合影响因素。 (6)因子得分系数表15-9列出了采用回归法估计的因子得分系数。同时在原数据浏览窗口中新增了变量“FAC1_1”,它表示不同年份的综合影响因素值。为了表述方便,将其改写为“Z”变量。 2回归分析结果(1)模型摘要表15-10给出了衡量该回归方程优劣的统计量。调整的R2为0.928,说明拟合的线性回归模型反映了原始数据92.8%的信息,拟合效果较好。 (2)方差分析表表15-11是对回归模型进行方差分析的检验结果。可以看到方差分析结果中F统计量等于84.790,概率P值小于显著性水平0.05,所以该模型是有统计学意义的,即综合影响因素和制度变量是显著的。 (3)回归系数表表15-12给出了回归模型的参数估计结果,于是得到回归方程如下:yz4083.3952209.809864.292x7接着将表15-8的因子载荷系数带入到Z变量的表达式中,进入可以将上述回归模型改写为如下形式:yx4083.402063.962026.40x2161.19x1849.61x12341900.44xxx2161.19864.29567 将拟合预测值与实际值比较后得知,模型有很高的拟合优度,并且模型中各变量系数符号的经济意义合理。各项影响因素的增长,对旅游收入均存在正向作用。同时,由于制度变量的t统计量的概率P值等于0.124,大于显著性水平0.05,说明本模型中政策性因素不显著。由方程系数可知,城市居民旅游花费和铁路里数的增加对于国内旅游收入的影响,相比较于其它影响因素最为显著。 第16章SPSS在数据挖掘中的应用 16.1实例提出:168信息点播业务数据16-1.sav是某月陕西主要地区各类业务的流量数据,数据16-2.sav是该月每天各类业务的流量数据。请利用这些资料分析以下问题:问题一:请分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。问题二:请指出该月点播业务最好三项栏目,并分析它们之间的流量有无显著性差异。问题三:请预测该月点播业务最好栏目的长期发展趋势。 16.2实例的SPSS软件操作详解问题一操作详解问题一要求分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。由于各地区在股票点播、指数点播等业务上的流量数据差异较大,并没有统一的大小顺序关系,因此可以采用聚类分析研究陕西各地区的总流量差异。 问题一操作详解Step01:打开数据文件及对话框打开数据文件16-1sav,选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【HierarchicalCluster(系统聚类)】命令,弹出【HierarchicalClusterClusterAnalysis(系统聚类分析)】对话框。Step02:选择聚类分析变量在左侧的候选变量列表框中选择西安、宝鸡、榆林等十个地区变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中。同时点选【Variable(变量)】单选钮,表示选择聚类对象为指标变量。Step03:输出聚类数目在主对话框中单击【Statistics】按钮,弹出相应对话框。点选【Singlesolution(单一方案)】单选钮,并在【Numberofclusters(聚类数)】文本框中键入数字“3”表示利用聚类分析将十个地区分为三类。其他选项保持系统默认,单击【Continue】按钮返回主对话框。 问题一操作详解Step04:输出聚类图在主对话框中单击【Plots】按钮,弹出【Plots(绘制)】对话框。勾选【Dendrogram(树状图)】复选框,表示输出样品的聚类树形图。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step05:聚类方法选择在主对话框中单击【Method】按钮,弹出【Method(方法)】对话框。在【TransformValues(转换值)】选项组的【Standardize】下拉菜单中选择【Zscores(Z得分)】标准化方法。其他选项保持系统默认,单击【Continue按】钮返回主对话框。Step06:单击【OK】按钮,完成操作。 问题一操作详解 问题二操作详解Step01:计算各项业务的日平均流量打开数据文件16-2.sav,选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Means(均值)】命令,弹出【Means(均值)】对话框。在左侧的候选变量列表框中选择“股票点播”、“指数点播”等业务。其他选项保持系统默认,单击【OK】按钮完成操作。接着根据输出的业务流量统计数据表16-2.sav,可以确定日平均流量最大的三项业务“股票点播”、“每日运程”和“劲爆笑话”为点播业务最大的业务。 问题二操作详解 问题二操作详解Step02:业务流量的差异性研究选择菜单栏中的【Analyze(分析)】→【NonparametricTests(非参数检验)】→【LegacyDialogs(旧对话框)】→【KRelatedSamples(K个相关样本)】命令,弹出【TestsforSevearlRelatedSamples(多个关联样本检验)】对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量,将其同时添加至【TestVariable(s)(检验变量)】列表框中。在【TestType(检验类型)】选项组中勾选【Friedman】复选框作为配对样本检验的方法。最后单击主对话框中的【OK】按钮,完成操作。 问题二操作详解 问题三操作详解1.Step01:绘制序列图打开数据文件16-2.sav,选择菜单栏中的【Analyze(分析)】→【Forecasting(预测)】→【SequenceCharts(序列图)】命令,弹出【SequenceCharts(序列图)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【Variables(变量)】列表框。其他选项保持系统默认,单击【OK】按钮完成操作。根据序列图,观测到股票点播数据虽然平稳,但具有明显的周期性波动特征,因此可以利用ARMA模型来描述点播数据的波动性。 问题三操作详解 问题三操作详解Step02:时间序列ARMA模型选择菜单栏中的【Analyze(分析)】→【Forecasting(预测)】→【CreateModels(创建模型)】命令,弹出【TimeSeriesModeler(时间序列建模器)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【DependentVariables(因变量)】列表框,表示对其进行ARMA模型分析。选择【Method(方法)】下拉菜单中的【ARIMA】选项,表示进行ARMA模型估计。接着单击【Criteria(条件)】按钮,弹出ARIMA模型阶数设定窗口。观察序列图发现点播数据以7天为周期进行波动,反复进行ARMA模型滞后阶数的尝试后,最终选择AR(7)模型来描述股票点播流量的波动性。于是在【TimeSeriesModeler(时间序列建模器)】窗口【Autogressive(p)(自回归(p))】选项组的【Nonseasonal(非季节性)】文本框中填入数字“7”。在【Transformation(转换)】选项组中点选【Naturallog(自然对数)】单选钮,再单击【Continue】按钮,返回主对话框。 问题三操作详解 问题三操作详解 问题三操作详解单击【Statistics】按钮,勾选其中的【Parameterestimates(参数估计)】复选框,表示输出模型参数估计结果和模型预测值;同时取消勾选【Goodnessoffit(拟合优度)】复选框,其他选项保持系统默认。单击【Plots】选项,勾选其中的【Residualautocorrelationfunction(ACF)(残差自相关函数)】和【Residualpartialautocorrelationfunction(PACF)(残差部分自相关函数)】复选框,表示绘制残差的自相关图和偏相关图。不仅如此,勾选【Fitvalues(拟合值)】复选框输出模型的拟合效果图。其他选项保持系统默认。最后,单击【OK】按钮完成操作。 16.3实例的SPSS输出结果详解问题一输出结果详解(1)聚类过程表SPSS软件首先给出了进行系统聚类分析的过程表,它动态显示了所有地区的聚类过程。下表显示第二地区和第九个地区首先被合在一起,聚类系数等于2.356,它们将在第二步中与其他类再进行合并。其他结论可以依此类推。 问题一输出结果详解ClusterCombinedStageClusterFirstAppearsStageCluster1Cluster2CoefficientsCluster1Cluster2NextStage1292.3560022266.12310637106.48900743810.45900553411.16640762520.56420973727.80153881336.82307991242.702860 问题一输出结果详解(2)聚类分析结果表下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类:第Ⅰ类:西安;第Ⅱ类:宝鸡、咸阳、铜川、汉中;第Ⅲ类:榆林、延安、渭南、安康、商洛。其中第Ⅰ类地区西安是168信息各类点播业务流量最大的地区,第Ⅲ类的五个地区在所有地区中是相对168信息点播业务流量最低,而第Ⅱ类地区的点播业务流量是介于第Ⅰ类和第Ⅲ类之间,保持中游水平。分析地区间的点播量的差异部分是由于地区特征的差异引起的,例如人口数量、经济发展状况(收入水平、手机拥有量、物价水平等),同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。 问题一输出结果详解Case3Clusters西安1宝鸡2榆林3延安3咸阳2铜川2渭南3安康3汉中2商洛3 问题一输出结果详解(3)树形图上表已给出了相关聚类结果,最后用树形图(Dendrogram)直观反映整个聚类过程和结果。 问题一输出结果详解 问题二输出结果详解•下表(部分)是利用【Means(均值)】功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到,“股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务,说明这些业务深受消费者欢迎,公司应努力增加在这些业务方面的内容更新及促销。而相反的,“商讯点播”、“区号邮编”等业务的点播量太低,因此公司可以考虑停止这些服务功能以节约成本。 问题二输出结果详解MeanNStd.Deviation股票点播7317.9677314634.75391指数点播278.548431164.77658外汇点播38.41943114.17927到价提示11.6452318.24439到价报警176.064531125.84486新闻点播2040.225831204.82427外地天气139.83873132.26153本地天气185.12903154.01280航班点播156.93553152.17786列车时刻49.06453116.98614话费查询2139.0645313322.93176头脑体操124.61293169.72311 问题二输出结果详解(2)秩统计表下表是多配对样本非参数检验的秩统计表。可以看到,“股票点播”变量的平均秩最大,等于2.42,说明它的点播量最大,排名更靠后;相反的,“劲爆笑话”变量的平均秩最小,等于1.35,说明它的点播量最小,排名更靠前。MeanRank股票点播2.42劲爆笑话1.35每日运程2.23 问题二输出结果详解(3)Friedman统计表Friedman检验结果如下表所示,样本容量等于31,Chi-Square统计量等于19.935,自由度df等于2,近似相伴概率P值为0.000,远远小于显著性水平0.05。所以拒绝零假设,认为这三种业务的点播量存在显著差异。这说明虽然它们位居所有业务的前三位,但其点播量还是存在显著的差异。因此,公司需要分开对待它们各自的点播业务特点。N31Chi-Square19.935df2Asymp.Sig..000 问题三输出结果详解(1)时间序列折线图下图绘制了“股票点播”业务在该月每日点播量的时间序列图。可以看到,股票点播量是平稳的,但具有显著的周期性,在每个周末的点播量明显低于周内的点播量,这与股票周末休市有密切联系。于是考虑利用ARMA模型来刻画其波动性。 问题三输出结果详解 问题三输出结果详解(2)模型拟合优度检验表下表给出了AR(7)模型的拟合优度值,可以看到拟合优度统计量R2等于0.880,说明模型的整体的拟合效果较好。Ljung-BoxQ统计量是对点播序列的线性相关性进行检验。从检验结果看,LB检验概率P值大于显著性水平0.05,说明序列基本不存在自相关性 问题三输出结果详解ModelFitstatisticsLjung-BoxQ(18)NumberofStationaryModelPredictorsR-squaredStatisticsDFSig.NumberofOutliers股票点播-Mode0.8805.98511.8740l_1 问题三输出结果详解(3)模型参数估计值表下表列出了AR(7)模型的参数估计值。可以看到除了滞后7阶(Lag7)的系数显著外,其他滞后项系数都没有通过显著性检验,其t检验的概率P值都大于0.05。假设“每日股票点播量”记为Xt,则最终拟合的模型为:Xt=8.268+0.916Xt-1 问题三输出结果详解EstimateSEtSig.股票点播NaturalLogConstant8.268.08497.924.000ARLag1-.052.075-.697.493Lag2-.064.081-.798.433Lag3-.064.081-.786.440Lag4-.047.084-.561.580Lag5-.077.080-.965.345Lag6-.028.079-.354.727Lag7.916.07412.379.000 问题三输出结果详解(4)残差自相关和偏相关图下图给出了不同阶数下拟合模型的残差的自相关和偏相关图。可以看到,两列相关系数都落在置信区间内,说明残差序列的各阶自相关函数值和偏相关函数值都显著等于0,符合白噪声的特征。这也进一步反映了AR(7)模型的合理性。 问题三输出结果详解 问题三输出结果详解(5)模型拟合效果图最后,下图显示了本实例提出的AR(7)模型预测值与实际值的拟合效果图。从图形来看,除了在初始几天的模型拟合值偏高外,其他时间的模拟拟合效果都较好,这样可以利用该模型进行后续日期的预测。 问题三输出结果详解 第17章SPSS在金融市场中的应用 17.1实例提出:美国金融危机下全球股市的波动影响由于金融市场的传染效应,美国次贷危机已不仅仅影响到本国的股票市场,同时也影响了全球其他国家和地区的股票市场,例如,英国、日本和新加坡市场等。下图表示了美国、英国、德国、日本、中国香港和新加坡等全球主要股票市场从2007年1月至2008年10月的股票价格日收盘指数。具体数据见17-1.sav所示。 不同国家股票指数走势图 三个问题请你利用这些数据,分析以下问题:•请建立美国股指波动的数学模型;•请分析美国股指波动对其他国家地区的股票市场造成的影响程度;•请分析不同国家地区股指波动的差异性。 17.2实例的SPSS软件操作详解问题一操作详解问题一要建立美国道琼斯指数的波动模型,由于该指数主要随着时间的变动而变动,于是可以考虑建立该指数和时间之间的回归模型。首先从图形特点看,美股指数在研究日期内呈现明显的下降趋势,这反映了金融危机对其造成的显著影响。但是,指数的下跌并不是线性关系,而是表现为显著的非线性特征,于是可以考虑采用非线性回归模型进行数据的拟合分析。 具体操作步骤Step01:打开数据文件打开数据文件17-1.sav。单击数据浏览窗口的【VariableView(变量视图)】按钮,检查各个变量的数据结构定义是否合理,是否需要修改调整。•Step02:设置因变量和自变量选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【CurveEstimation(曲线估计)】命令,弹出【CurveEstimation(曲线估计)】对话框。在候选变量列表框中选择“美国道琼斯指数”变量设定为因变量,将其添加至【Dependent(s)(因变量)】列表框中。同时点选【Time(时间)】按钮,表示设置自变量为时间变量。 Step03:选择曲线拟合模型类型从原始图像看到美股指数呈显著的非线性下跌趋势,于是在【Model(模型)】复选框中除了保留系统默认的【Linear(线性)】选项外,同时勾选【Exponential(指数分布)】和【Quadratic(二次项)】模型。这表示要对这三种模型进行曲线拟合,同时比较其拟合效果。单击【OK】按钮,完成本部分操作。 问题二操作详解具体操作步骤如下:Step01:打开相关分析对话框打开数据文件17-1.sav,选择菜单栏中的【Analyze(分析)】→【Correlate(相关)】→【Bivariate(双变量)】命令,弹出【BivariateCorrelations(双变量相关)】对话框。•Step02:选择相关分析变量在候选变量列表框中选择美国、日本、德国等五个国家股指变量,将其添加至【Variables(变量)】列表框中。这表示要分析两两国家之家股指的相关关系。 相关分析窗口 Step03:选择相关系数类型在【CorrelationCoefficients(相关系数)】选项组中勾选【Pearson(皮尔森)】、【Kendall(肯德尔)】和【Spearman】三种相关系数类型,表示结果窗口输出这三种类型的相关系数。单击【OK】按钮,完成本部分操作。 问题三操作详解具体操作步骤如下:Step01:打开数据文件及对话框打开数据文件17-1.sav,选择菜单栏中的【Analyze(分析)】→【Classify(分类)】→【HierarchicalCluster(系统聚类)】命令,弹出【HierarchicalClusterAnalysis(系统聚类分析)】对话框。Step02:选择聚类分析变量在候选变量列表框中选择美国、德国和日本等五个国家股指变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中。同时点选【Variable(变量)】单选钮。 Step03:输出聚类图在主对话框中单击【Plots(绘制)】按钮,弹出【Plots(绘制)】对话框。勾选【Dendrogram(冰柱)】复选框,表示输出样品的聚类树形图。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step04:聚类方法选择在主对话框中单击【Method(方法)】按钮,弹出【Method(方法)】对话框。选择【TransformValues(转换值)】→【Standardize(标准化)】下拉菜单的【Zscores(Z得分)】标准化方法。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step05:单击【OK】按钮,完成操作。 聚类分析 17.3实例的SPSS输出结果详解问题一输出结果(1)模型汇总及参数估计下表给出了样本数据分别进行三种曲线方程拟合的检验统计量和相应方程中的参数估计值。从拟合优度值RSquare看到,二次曲线的拟合效果相对较好,达到了76.3%,而线性模型和指数函数的拟合优度连50%都没有达到。虽然上述三个模型都有显著的统计学意义,但从拟合优度值的大小可以看到二次曲线方程较其他两种曲线方程拟合效果更好,因此选择它来描述美股下跌的趋势。 EquationLinearQuadraticExponentialModelSummaryRSquare.330.763.340F215.314702.740225.819df1121df2438437438Sig..000.000.000ParameterEstimatesConstant13495.48512292.73813524.252b1-3.66812.659.000b2-.037模型汇总及参数估计 (2)拟合曲线图最后给出的是实际数据的散点图和三种估计曲线方程的预测图,这也进一步说明二次函数曲线方程的拟合效果最好。需要注意的是,虽然选择的二次函数曲线拟合效果最好,但是它的拟合优度值也只有76.3%,其值也偏低。这说明股市的波动情况复杂,在较长时间范围内,很难用单一的非线性函数加以刻画;相反的,在短期内,由于股市波动变动不大,用曲线拟合的方法能得到较好的结果。 拟合曲线图 问题二输出结果(1)Pearson(皮尔森)相关系数表首先SPSS列出了道琼斯工业指数和德国DAX指数、伦敦金融时报指数等其他五类指数的Pearson(皮尔森)相关系数表。从Pearson(皮尔森)相关系数大小看到,受美国股市影响强弱大小的其他国家股市分别为:新加坡、德国、英国和日本。可若从系数值看到,其他国家股市受美国股市影响都很大,说明它们的协同运动特征很显著。(2)非参数相关系数表非参数相关系数表列出了这些股票指数的Kendall(肯德尔)和Spearman相关系数,它们系数值概率P值也远小于显著性水平。 问题三输出结果ClusterCombinedStageClusterFirstAppearsStageCluster1Cluster2CoefficientsCluster1Cluster2NextStage11564.98000221285.258103313107.802204414213.213300聚类过程表 树形图 第18章SPSS在心理学中的应用 18.1实例提出:大学生心理问题研究大学生良好心理素质的培养与心理健康教育不仅关系到社会主义高等教育能否培养出身心健康、人格健全、全面发展、适应社会主义市场经济要求、能适应新世纪挑战的新型人才,而且关系到全民族素质的提高。某大学对该校学生的心理健康状况进行了问卷调查分析。请利用这些资料和数据18-1.sav分析以下问题:问题一:请你对调查问卷进行信度分析。问题二:请综合评价大学生的心理健康状况。问题三:请分析独生子女、系别对大学生的心理健康是否有显著影响。 18.2实例的SPSS软件操作详解1问题一操作详解问题一要求你对调查问卷进行信度分析,即对问卷的稳定性和可靠性进行有效分析。它反映了测量工具所得到的结果的一致性或稳定性,是被测特征真实程度的指标。因此可以利用SPSS中的信度分析功能来实现。 问题一的具体操作步骤Step01:打开数据文件打开数据文件18-1.sav。单击工具栏中的【VariableView(变量视图)】按钮,检查各个变量的数据结构定义是否合理,是否需要修改调整。Step02:信度分析选择菜单栏中的【Analyze(分析)】→【Scale(度量)】→【ReliabilityAnalysis(可靠性分析)】命令,弹出【ReliabilityAnalysis(可靠性分析)】对话框。在左边的列表框中选择“躯体化”、“强迫”等九项因子作为分析对象,将其添加至右侧的【Items(项目)】列表框中。单击【Statistics】按钮,弹出【ReliabilityAnalysis:Statistics(可靠性分析:统计量)】对话框,并在【Descriptivesfor(描述性)】选项组中选择【Item(项)】选项,在【Inter-item(项之间)】选项组中选择【Correlations(相关性)】选项,再单击【Continue】按钮,返回主对话框。最后单击【OK】按钮,完成本部分操作。 问题一的具体操作步骤 问题二操作详解Step01:打开数据文件打开数据文件18-1.sav,选择菜单栏中的【Analyze(分析)】→【DataReduction(降维)】→【Factor(因子分析)】命令,弹出【FactorAnalysis(因子分析)】对话框。Step02:选择因子分析变量在候选变量列表框中选择躯体化、强迫症状、人际关系敏感等九项因子设定为因子分析变量,将其添加至【Variables(变量)】列表框中,如图18-2所示。Step03:选择因子旋转方法在【FactorAnalysis(因子分析)】对话框中,单击【Rotation】按钮,勾选【Varimax(旋转)】复选框,其他选项保持系统默认,单击【Continue】按钮返回主对话框。 问题二操作详解Step04:选择因子得分在【FactorAnalysis(因子分析)】对话框中,单击【Score】按钮,勾选【Saveasvariables(保存为变量)】复选框,表示采用回归法计算因子得分并保持在原文件中;同时勾选【Displayfactorscorecoefficientmatrix(显示因子得分系数矩阵)】复选框,表示输出因子得分系数矩阵。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step05:其他选项选择在【FactorAnalysis(因子分析)】对话框中,单击【Options】按钮,勾选【CoefficientDisplayFormat(系数显示格式)】选项组中的【Sortedbysize(按大小排序)】复选框,表示将载荷系数按其大小排列构成矩阵。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step06:单击【OK】按钮,完成操作。 问题二操作详解 问题三操作详解Step01:对独生子女变量的影响性进行两独立样本t检验选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【Independent-SampleTTest(单样本T检验)】命令,在弹出的对话框的候选变量列表框中选择检验变量“总分”,将其添加至【TestVariable(s)(检验变量)】列表框中。选择分组变量“独生子女”,将其添加至【GroupingVariable(s)(组变量)】文本框中。接着,单击【DefineGroups】按钮,弹出【DefineGroup(定义组)】对话框。点选【Usespecifiedvalues(用特殊值)】单选钮,在【Group1(组1)】文本框中输入0,在【Group2(组2)】文本框中输入1。输入完成后,单击【Continue】按钮返回主对话框。最后,单击【OK】按钮,完成操作。 问题三操作详解Step02:对系别变量的影响性进行方差分析检验选择菜单栏中的【Analyze(分析)】→【CompareMeans(比较均值)】→【One-WayANOVA(单因素ANOVA)】命令,弹出【One-WayANOVA(单因素ANOVA)】对话框。在候选变量列表框中选择“总分”变量作为因变量,将其添加至【DependentList(因变量列表)】列表框中。在候选变量列表框中选择“系别”变量作为水平值,将其添加至【Factor(因子分析)】列表框中。最后,单击【OK】按钮,完成操作。 问题三操作详解 18.3实例的SPSS输出结果详解问题一输出结果详解(1)评估因子的基本描述性统计量下表所示是信度分析的评估因子的基本描述统计量。表中给出了所有因子的均值、标准差以及参与分析的个案书。可以看到,“躯体化”、“抑郁”因子的平均评价得分最高,“人际敏感”和“精神病性”因子的平均得分最低。 问题一输出结果详解MeanStd.DeviationN躯体化43.8236.924305强迫38.6111.906305人际敏感35.0213.689305抑郁42.8924.028305焦虑36.3415.782305敌意37.6512.731305恐怖36.0915.868305偏执39.6812.000305精神病性35.8915.407305 问题一输出结果详解(2)评估因子的相关系数矩阵表18-3所示是评估因子的相关系数矩阵。可以看到,除了躯体化和抑郁两个因子外,SCL-90其余各个因子的相关都在0.6以上,表明SCL-90在本研究中一定程度上具有较好的内容效度和结构效度。 问题一输出结果详解躯体化强迫人际敏感抑郁焦虑敌意恐怖偏执精神病性躯体化1.0000.2220.1730.1490.1930.2280.1910.1650.163强迫0.2221.0000.7950.2080.7650.7110.6870.7810.726人际敏0.1730.7951.0000.1960.8280.7690.7730.7900.806感抑郁0.2080.1961.0000.2420.2310.1960.1930.2440.149焦虑0.1930.7650.8280.2421.0000.7750.8310.8120.804敌意0.2280.7110.7690.2310.7751.0000.7180.7700.768恐怖0.1910.6870.773150.1960.8310.7181.0000.7630.780偏执0.1650.781.7900.1930.8120.7700.7631.0000.750精神病0.1630.7260.8060.2440.8040.7680.7800.7501.000性 问题一输出结果详解(3)信度分析的克朗巴哈α系数克朗巴哈(Cronbach)α系数度量信度分析的一种重要方法。本实例中的系数值根据表18-4给出。表中不仅给出了克朗巴哈α系数,还给出了评价因子的标准化α系数。由于信度系数等于0.820,因此总体上该调查评估表的编制的内在信度是比较理想的。Cronbach'sAlphaBasedonCronbach'sAlphaStandardizedItemsNofItems0.8200.9119 问题二输出结果详解(1)因子分析共同度下表是因子分析的共同度,显示了所有变量的共同度数据。第二列列出了按指定提取条件提取特征根时的共同度。可以看到,所有变量的70%以上的信息可被因子解释,这些变量信息丢失较少。 问题二输出结果详解InitialExtraction躯体化1.0000.617强迫1.0000.756人际敏感1.0000.845抑郁1.0000.532焦虑1.0000.860敌意1.0000.771恐怖1.0000.783偏执1.0000.817精神病性1.0000.806 问题二输出结果详解(2)因子分析的总方差解释接着下表计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表。根据特征值准则(取特征值大于等于1的主成分作为初始因子),应该选取两个因子。它们累积时解释了数据中总方差的75.5%。结果表明,第一个因子为主因子即可,因为它解释了原有六个变量总方差的84.449%。 问题二输出结果详解ExtractionSumsofInitialEigenvaluesSquaredLoadings%ofComponentTotalVarianceCumulative%Total%ofVarianceCumulative%15.75763.97163.9715.75763.97163.97121.03011.44675.4161.03011.44675.4163.8559.50184.9184.3383.75388.6715.2823.13991.8106.2432.70294.5127.1801.99996.5118.1671.85498.3659.1471.635100.000 问题二输出结果详解(3)旋转前因子载荷矩阵下表显示了旋转前因子载荷矩阵。通过载荷系数大小可以看到不同公共因子所反映的主要指标的区别。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如躯体化因子,因此需要进行因子旋转。 问题二输出结果详解Component12焦虑0.926-0.055人际敏感0.914-0.101偏执0.898-0.105精神病性0.896-0.063恐怖0.881-0.075敌意0.878-0.003强迫0.869-0.028躯体化0.2600.741抑郁0.2920.668 问题二输出结果详解(4)旋转后的因子载荷矩阵下表显示了实施因子旋转后的载荷矩阵。在进行因子旋转时采用的是正交旋转中的方差最大法,这便于对因子进行解释。可以看到,第一主因子除了在“躯体化”和“抑郁”等两个因子上载荷系数较小外,其他因子的载荷都较大,因此可以将它命名为态度公因子。相反的,第二主因子在“躯体化”和“抑郁”载荷上系数较大,可以将它命名为躯体化和抑郁因子。此时,各个因子的含义更加突出。根据因子得分的大小顺序为焦虑>人际敏感>偏执>精神病性>恐怖>敌意>强迫>躯体化>抑郁。 问题二输出结果详解Component12焦虑0.9150.151人际敏感0.9140.102偏执0.8990.096精神病性0.8880.136恐怖0.8760.121敌意0.8570.190强迫0.8540.164躯体化0.0900.780抑郁0.1380.716 问题二输出结果详解(5)因子得分系数下表列出了经VARIMAX旋转后的因子值系数的回归估计值。因子值系数乘以对应变量的标准化值就是因子值。Component12躯体化-0.1150.712强迫0.1530.007人际敏感0.177-0.061抑郁-0.0930.644焦虑0.169-0.016敌意0.1490.030恐怖0.165-0.038偏执0.175-0.065精神病性0.165-0.026 问题三输出结果详解(1)基本统计信息汇总表被调查者中独生子女和非独生子女人数分别为139和154。他们心理健康状况总分的均值分别为12.531和15.511,标准差等于1.063和1.250。虽然他们的数值有一定差异,但还需要进行统计检验分析这种差异的统计学意义。独生子女NMeanStd.DeviationStd.ErrorMean总分否13958.2812.5311.063是15458.2315.5111.250 问题三输出结果详解(2)两总体均值的检验在首先进行的方差相等假设检验中,F统计量等于0.295,对应的概率P值为0.588,大于显著性水平0.05,因此认为两组数据的方差是相等的。于是接着观察“Equalvarianceassumed”列所对应的t检验结果。由于t统计量对应的双尾概率P值为0.978,大于显著性水平0.05,因此认为两总体的均值不存在着显著差异。即大学生是否是独生子女对心理健康没有显著性影响。 问题三输出结果详解总分EqualvariancesEqualvariancesassumednotassumedLevene'sTestF0.295forEqualityofSig.0.588Variancest-testfort0.0280.029Equalityofdf291287.563MeansSig.(2-tailed)0.9780.977MeanDifference0.0470.047Std.ErrorDifference1.6581.64195%ConfidenceLower-3.217-3.182IntervaloftheUpper3.3113.276Difference 问题三输出结果详解(3)方差分析表下表显示了方差分析表结果表。可以看到,心理健康得分总的离差平方总和为58987.532;不同系别的组间离差为1291.059;组内离差为57696.472;方差分析对应的F统计量的观测值为1.645,对应的概率P值为0.163。这里显著性水平为0.05,由于P值大于显著性水平0.05,所以接受零假设,认为不同系别的大学生心理健康没有显著性差异。 问题三输出结果详解SumofSquaresdfMeanSquareFSig.BetweenGroups1291.0594322.7651.6450.163WithinGroups57696.472294196.247Total58987.532298

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭