SPSS结课论文
SPSS统计软件的简单应用
——因子分析
作 者 佟格日乐吐 院 系 财政税务学院 专 业 资 产 评 估 三 班 年 级 2009 级 学 号 801131117 指导教师 王 志 刚 导师职称 讲 师
内容提要
SPSS是世界上最早的统计分析软件,在技术研究中,常常需要对大量的数据进行统计处理,这是一项细致而繁琐的工作,如果完全依靠手工来进行,工作量较大,且难以保证准确性,也得不到高的精度。为了减轻整理和计算大量数据的负担,提高工作效率,我们利用SPSS来进行处理。它功能多,速度快,计算精确,较易利用,并且计算机统计软件可以完成更为精确系统的数据分析与统计计算。
关键字:因子分析法,
SPSS,数据分析,主成分分析
SPSS统计软件的简单应用
——因子分析
一、SPSS统计软件的概述
SPSS是专业的通用统计软件包,它是一个组合式软件包,兼有数据管理、统计分析、统计绘图和统计报表功能,界面友好,使用简单。SPSS对硬件系统的要求较低,普通配置的计算机都可以运行该软件,对运行的软件环境要求宽松,有各种版本可运行在Windows 3X、9X、2000环境下,现在较新的10.0版可运行在Windows 2000中。SPSS 10.0有英文版和汉化版两种版本,可运行在中英文平台上。SPSS统计软件采用电子表格的方式输入与管理数据,能方便地从其他数据库中读入数据(如Dbase、Excel、Lotus等)。它的统计过程包括描述性统计、平均值比较、相关分析、回归分析、聚类分析、数据简化、生存分析、多重响应等几大类,每类中又下含同类多种统计过程,比如回归分析中又分线形回归分析、非线性回归分析、曲线估计等多个统计过程,而且每个过程中允许用户选择不同的方法及参数进行统计分析,因此除可以实现常规的各种统计外,还可用来做一些不常用的分析处理。
SPSS的应用领域非常宽泛,如:宏观经济管理的诸多领域(宏观经济政策,金融政策,产业结构等),企业经营管理的诸多领域(如市场研究、销售研究、财务分析等),行业管理和特征分析(如货币市场分析,信息服务业分析等),社会学、民族学、人类学等诸多科学领域,以及医学、农学、工学、军靴领域,乃至理学领域,都离不开统计分析工具SPSS。
二、SPSS 统计软件的功能特点
1.SPSS的数据编辑功能
在SPSS的数据编辑器窗口中,不仅可以对打开的数据文件进行增加、删除、复制、剪切和粘贴等常规操作,还可以对数据文件中的数据进行排序、转置、拆分、聚合、加权等操作,对多个数据文件可以根据变量或个案进行合并。可以根据需要把将要分析的变量集中到一个集合中,打开时只要指定打开该集合即可,而不必打开整个数据文件。
2.表格的生成和编辑
利用SPSS可以生成数十种风格的表格,根据功能又可有一般表、多响应表和频数表等。利用专门的编辑窗口或直接在查看器中可以编辑所生成的表格。在SPSS的高版本中,统计成果多被归纳为表格和(或)图形的形式。
3.图形的生成和编辑
利用SPSS可以生成数十种基本图和交互图。其中基本图包括条形图、线图、面积图、饼图、高低图、帕累托图、控制图、箱图、误差条图、散点图、直方图、P-P概率图、Q-Q概率图、序列图和时间序列图等,有的基本图中又可进一步细分。交互图比基本图更漂亮,可有不同风格的二维、三维图。交互图包括条形交互图、点形交互图、线形交互图、带形交互图、饼形交互图、箱形交互图、误差条形交互图、直方交互图和散点交互图等。图形生成以后,可以进行编辑。
4.与其他软件的联接
SPSS能打开Excel、DaBase、Foxbase、Lotus 1-2-3、Access、文本编辑器等生成的数据文件。SPSS生成的图形可以保存为多种图形格式。
现在的SPSS软件支持OLE技术和ActiveX技术,使生成的表格或交互图对象可以与其他同样支持该技术的软件进行自动嵌入与链接。SPSS还有内置的VBA客户语言,可以通过Visual Basic编程来控制SPSS。
5.SPSS的统计功能
SPSS的统计功能是SPSS的核心部分,利用该软件,几乎可以完成所有的数理统计任务。具体来说,SPSS的基本统计功能包括:样本数据的描述和预处理、假设检验(包括参数检验,非参数检验及其他检验)、方差分析(包括一般的方差分析和多元素方差分析)、相关分析、回归分析、判别分析、因素分析。
三、利用SPSS进行统计处理的基本过程
SPSS进行统计处理的基本过程如图1所示:
图1 SPSS统计处理流程图
其基本步骤如下:
1.数据的录入
将数据以电子表格的方式输入到SPSS中,也可以从其他可转换的数据文件中读出数据。数据录入的工作分两个步骤,一是定义变量,二是录入变量值。
2.数据的预分析
在原始数据录入完成后,要对数据进行必要的预分析,如数据分组、排序、分布图、平均数、标准差的描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据。
3.统计分析
按研究的要求和数据的情况确定统计分析方法,然后对数据进行统计分析。
4.统计结果可视化
在统计过程进行完后,SPSS会自动生成一系列数据表,其中包含了统计处理产生的整套数据。为了能更形象地呈现数据,需要利用SPSS提供的图形生成工具将所得数据可视化。如前所述,SPSS提供了许多图形来进行数据的可视化处理,使用时可根据数据的特点和研究的需求来进行选择。
5.保存和导出分析结果
数据结果生成完之后,则可将它以SPSS自带的数据格式进行存贮,同时也可利用SPSS的输出功能以常见的数据格式进行输出,以供其他系统使用。
四、SPSS的简单应用
因子分析法的形成和发展已经有很长历史了,最早应用于研究解决心理学和教育方面的问题,目前这一方法应用范围已经十分广泛,在经济学、社会学、考古学、生物学、医学、地质学,以及体育科学等各个领域都取得了显著的成就。因此,运用数据分析软件SPSS来处理各项指标,就可以快速、准确得到主要因子,从而简化了人工计算的繁琐,使得因子分析法在生活领域的各个方面得到了广泛推广。
因子分析的核心思想指通过建立一个从高维空间到低维空间的线性映射, 使该映射保持样本点在高维空间中的某些结构, 用降维的思想把多指标转化为少数几个综合指标。少数几个不可测的综合指标通常被称为公共因子,因子分析是根据相关性的大小将原始变量分组, 使组内变量相关性较高, 组间变量相关性较低。
其每组变量代表一个公共因子, 它反映了问题的一个方面、一个维度。进而利用几个公共因子的方差贡献率作为权重来构造综合评价函数, 简化众多原始变量、有效处理指标间的重复信息。但若求出的各公共因子的典型代表变量不很突出, 则应通过适当方法进行因子旋转, 以求能较好的解释公共因子, 常用正交旋转来解释公共因子。
如果使用SPSS来做因子分析,可以分成以下几个步骤。我用图片一一展示给你。在此之前,你首先要建立好自己的数据库。 第一步,打开spss,点击“分析”,选择“数据降纬”-“因子分析”。见图1
第二步,选择你所要做分析的问题,送进右边的“变量”对话框中。见图2、图3
第三步,然后进行参数设置。见图4、图5、图6、图7
五、因子分析与主成分分析 (一)因子分析
打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图
(4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图:
图3-1
相关矩阵 居民消 相关 GDP 居民消费水平 固定资产投资 居民消 固定资职工平GDP 费水平 产投资 均工资 1.000 .267 .951 .426 .187 .716 .396 货物周转量 .617 -.151 .431 费价格指数 商品价工业总格指数 产值 .874 .363 .792 -.273 -.264 -.235 -.593 -.280 -.359 .267 1.000 .951 .426 1.000 职工平均工资 货物周转量 居民消费价格指数 商品价格指数 工业总产值
.187 .716 .396 1.000 .431 -.357 -.357 1.000 -.253 .022 .659 -.145 -.543 -.253 1.000 .022 .099 .659 .617 -.151 -.273 -.235 -.280 -.145 -.264 -.593 -.359 -.543 .874 .363 .792 .099 .763 -.125 .763 1.000 -.192 -.125 -.192 1.000
图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。 .620 Bartlett 的球形度检近似卡方 231.285 验 df 28 Sig. .000
图3-3 公因子方差 初始 提取 GDP 1.000 .945 居民消费水平 1.000 .799 固定资产投资 1.000 .902 职工平均工资 1.000 .873 货物周转量 1.000 .857 居民消费价格1.000 .957 指数 商品价格指数 1.000 .928 工业总产值 1.000 .904 提取方法:主成份分析。
图3-4 解释的总方差 初始特征值 提取平方和载入 旋转平方和载入 方差方差方差合计 的 % 累积 % 合计 的 % 累积 % 合计 的 % 累积 % 3.754 46.924 46.924 3.754 46.924 46.924 3.207 40.092 40.092 2.203 27.532 74.456 2.203 27.532 74.456 2.217 27.708 67.800 1.208 15.096 89.551 1.208 15.096 89.551 1.740 21.752 89.551 .403 5.042 94.593 .214 2.673 97.266 .138 1.722 98.988 .066 .829 99.817 .015 .183 100.000 成份 1 2 3 4 5 6 7 8 成份 初始特征值 方差合计 的 % 累积 % 1 3.754 46.924 46.924 2 2.203 27.532 74.456 3 1.208 15.096 89.551 4 .403 5.042 94.593 5 .214 2.673 97.266 6 .138 1.722 98.988 7 .066 .829 99.817 8 .015 .183 100.000 提取方法:主成份分析。 解释的总方差 提取平方和载入 旋转平方和载入 方差方差合计 的 % 累积 % 合计 的 % 累积 % 3.754 46.924 46.924 3.207 40.092 40.092 2.203 27.532 74.456 2.217 27.708 67.800 1.208 15.096 89.551 1.740 21.752 89.551 图3-5 图3-6 成份矩阵a 固定资产投资 GDP 工业总产值 商品价格指数 居民消费水平 货物周转量 职工平均工资 居民消费价格指数 1 .911 .884 .822 -.621 .606 .486 .465 -.510 成份 2 .163 .385 .429 .596 -.596 .737 -.725 .257 3 .213 .120 .210 .433 .277 -.279 .362 .794 提取方法 :主成份。 a. 已提取了 3 个成份。 图3-7 旋转成份矩阵a 成份 1 2 3 GDP .955 .124 -.131 工业总产值 .944 .109 -.014 固定资产投资 .872 .351 -.137 货物周转量 .751 -.507 -.192 职工平均工资 .048 .925 -.121 居民消费水平 .219 .841 -.209 居民消费价格-.135 -.013 .969 指数 商品价格指数 -.104 -.496 .819 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 5 次迭代后收敛。
图3-8 成份转换矩阵 成份 1 2 3 1 .817 .407 -.408 2 .548 -.769 .331 3 .179 .494 .851 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。
图3-9
图3-10 成份得分系数矩阵 成份 1 2 3 GDP .306 .011 .047 居民消费水平 .025 .387 .040 固定资产投资 .270 .129 .075 职工平均工资 -.025 .451 .096 货物周转量 .248 -.319 -.139 居民消费价格.070 .180 .653 指数 商品价格指数 .077 -.098 .462 工业总产值 .317 .026 .123 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。
图3-11 成份得分协方差矩阵 成份 1 2 3 1 1.000 .000 .000 2 .000 1.000 .000 3 .000 .000 1.000 成份得分协方差矩阵 成份 1 2 3 1 1.000 .000 .000 2 .000 1.000 .000 3 .000 .000 1.000 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。 (2)因子模型中各统计量的意义 A)因子载荷
:因子载荷
为第i个变量在第j个因子上的载荷,实际上就
是与的相关系数,表示变量依赖因子的程度,反应了第i个变量对于第j
个因子的重要性。
B)变量的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为
,公式为:
=
(j=1,2,….,k)
表示全部公因子对变量的总方差所做出的贡献,也即是变量的信息能够被k个公因子所描述的程度。
C)公因子的方差贡献率:在因子载荷矩阵A中,各列元素的平方和记
为,表示第j个公因子对于X所提供方差的总和,它是衡量公因子相对重要性
的指标。方差贡献率越大,表明公因子对X的贡献越大。 (3)基本分析结果
A)KMO和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关矩阵是否是单位阵,参见图3-2。
由Bartlett检验可以看出,应拒绝个变量独立的假设,即变量间具有较强的相关性,但是KMO的统计量为0.620,小于0.7,说明个变量间信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。
B)变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由图3-3所示的变量共同度可知:几乎所有变量的共同度都在80%以上,因此提取出的这几个公因子对各变量的解释能力是较强的。
C)碎石图用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小,从中可以非常直观的了解到哪些是最主要的因子,参见图3-5。本例中可见前三个因子的散点位于陡坡之上,而后五个因子散点成了平台,且特征根均小于1,因此至多考虑前三个公因子即可。
D)图3-4给出的是各成分的方差贡献率和累计贡献率,以及进行因子旋转后的方差贡献率和累计贡献率,前者将在主成分分析中进行说明。
E)图3-6为因子载荷矩阵,在前面已经直接按列的方向将其解释为个成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。表示如下:
ZX1=0.884F1+0.385F2+0.120F3+ ZX2=0.606F1-0.596F2-0.277F3+ . .
ZX8=0.822F1+0.429F2-0.210F3+
在表达式中各变量已经不是原始变量,而是标准化变量。表示特殊因子,是除了这3个公因子之外影响该变量的其他因素。原来设计了8个指标来表示经济发展水平,但是经过因子分析后,只需要三个因子即可描述影响地区经济发展状况。
F)为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行转换,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易解释。图3-9是进行因子旋转的空间示意图,值得注意的是旋转前后各变量散点的相对位置保持不变,即旋转并不改变因子分析的整体结果,只是影响各因子在各变量上的载荷分布,并影响各因子的贡献率。本例中采用的是方差最大正交旋转法进行因子旋转,输出的结果参见图3-4.,由图可知,只有前三个特征根大于1,因此SPSS只提取了前三个公因子。在旋转后三个公因子的方差累计贡献率均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为89.55%,和旋转前完全相同,因此选前三个因子已足够描述经济发展的水平。
G)进行方差最大旋转后,旋转后的因子载荷矩阵如图3-7所示,由图可以看出,第一公因子在
、
、
、
有较大的载荷,主要从GDP、固定资产投资、
货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在
、
上有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水
和
上有较大载荷,表现为居民消
平,因此命名为消费因子。第三公因子在
费价格指数和水平价格指数方面,因此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。
H)因子得分:前面得到了因子结构表达式, 可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。公因子的得分系数函数不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得,本例采用的是回归法。因子得分系数矩阵如图3-10所示,据此可以直接写出各公因子的得分表达式:
F1=0.306ZX1+0.025ZX2+0.270ZX3-0.025ZX4+0.248ZX5+0.070ZX6+0.077Z
X7+0.317ZX8
F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098Z
X7+0.026ZX8
F3=0.047ZX1+0.040ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462Z
X7+0.123ZX8
SPSS已经给出三个公因子的得分,保存在fac_1~fac_3中,按各因子对应的方差贡献率为权数计算如下综合统计量: F=
F1+
F2+
F3
=0.730F1+0.141F2+0.129F3 在SPSS中用程序计算综合因子得分:
Comp score=0.73* fac1_1+0.141* fac2_1+0.129* fac3_1
(二)主成分分析
A)由图3-1(各变量相关系数矩阵)可以看出,许多变量之间直接的相关性比
较强,的确存在信息上的重叠。
B)由图3-4(具体不再阐述)可知,只有前三个特征根大于1,因此SPSS只提取了前三个主成分,前三个主成分的方差贡献率达到89.55%,因此选前三个主成分已足够描述经济发展的水平。
C)图3-6输出为主成分系数矩阵,从而得到各主成分的表达式,在表达式中各变量已经不是原始变量,而是标准化变量。
F1=0.884ZX1+0.606ZX2+0.911ZX3+0.465ZX4+0.486ZX5-0.51ZX6-0.621ZX7+0.822ZX8
F2=0.385ZX1-0.596ZX2+0.163ZX3-0.725ZX4+0.737ZX5+0.257ZX6-0.596ZX7+0.429ZX8
F3=0.120ZX1+0.277ZX2+0.213ZX3+0.362ZX4-0.279ZX5+0.794X6-0.433ZX7+0.210ZX8
因为各自变量已经过标准化,因此以上三个主成分的均数均为0。 可以证明,各主成分的方差应当为前述特征根,但这里计算的数值方差均为特征根的平方,即各主成分的原始数值还应该除以一个特征根的平方根才行,但是因为不会对分析结果产生影响,因此在这里不再给出详细计算过程及结果。
在第一主成分中,X1,X2,X3,X8的系数较大,可以看成是反映GDP、固定资产投资、居民消费水平和工业总产值的综合指标。在第二主成分中,X4H和X5的系数较大,可以看成是反映职工平均工资和货物周转量方面的综合指标。在第三主成分中,X6系数最大,可以看成是反映居民消费价格指数方面的综合指标。主成分分析本质上是一种矩阵变换过程。
参考文献:
1.罗应婷,杨玉娟,《SPSS统计分析从基础到实践》,北京电子工业出版社; 2.余建英, 何旭宏,《数据统计分析与SPSS 应用》,北京人民邮电出版社; 3.张文波,陈红艳,《实用数据统计分析及SPSS应用》,人民邮电出版社; 4.薛微,《基于SPSS的数据分析》,中国人民大学出版社
因篇幅问题不能全部显示,请点此查看更多更全内容