很好的因子分析法讲议和实例资料下载.pdf
- 文档编号:5983664
- 上传时间:2023-05-05
- 格式:PDF
- 页数:17
- 大小:279.60KB
很好的因子分析法讲议和实例资料下载.pdf
《很好的因子分析法讲议和实例资料下载.pdf》由会员分享,可在线阅读,更多相关《很好的因子分析法讲议和实例资料下载.pdf(17页珍藏版)》请在冰点文库上搜索。
12.1.2因子分析的数学模型因子分析的数学模型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即1122iiiimmXaFaFaFi=+L,(1,2,ip=L)式中的,称为公共因子,1FL,2FmFi称为的特殊因子。
该模型可用矩阵表示为:
iXXAF=+这里12pXXXX=M,111212122212mmpppmaaaaaaAaaa=LLLLLLL12mFFFF=M,12p=M且满足:
(1);
mp
(2)(,)0CovF=,即公共因子与特殊因子是不相关的;
(3)101()01FmDDFI=O,即各个公共因子不相关且方差为1;
(4)212220()0pDD=O,即各个特殊因子不相关,方差不要求相等。
模型中的矩阵A称为因子载荷矩阵,称为因子“载荷”,是第i个变量在第ijaj个因子上的负荷,如果把变量iX看成维空间中的一个点,则表示它在坐标轴上的投影。
mijajF12.1.3因子载荷阵的求解因子载荷阵的求解因子载荷阵的求解方法有很多,这里仅介绍最为常用的主成分分析法。
为了节省篇幅,不加证明地给出使用主成分分析法求解因子载荷阵的一般步骤:
1.计算原始数据的协差阵。
2.计算协差阵的特征根为,相应的单位特征向量为。
10pL12,pTTTL3.利用的特征根和特征向量计算因子载荷阵:
1122(,ppATTT=L)由于因子分析的目的是减少变量个数,因此,因子数目m应小于原始变量个数p。
所以在实际应用中,仅提取前个特征根和对应的特征向量,构成仅包含个因子的因子载荷阵:
mm1122(,mmATTT=L)i12.1.4因子载荷阵的统计意义因子载荷阵的统计意义1.因子载荷对于因子模型1122iiiijjimmXaFaFaFaF=+LL1,2,ip=L我们可以得到,iX与的协方差为:
jF11(,)(,)(,)(,mijikkijkmikkjijkijCovXFCovaFFCovaFFCovFa=+=+=)如果对iX作了标准化处理,iX的标准差为1,且的标准差为1,因此jF,(,)(,)()()ijijXFijijijCovXFrCovDXDF=XFa=那么,从上面的分析,我们知道对于标准化后的iX,是ijaiX与的相关系数,它一方面表示jFiX对的依赖程度,绝对值越大,密切程度越高;
另一方面也反映了变量jFiX对公共因子的相对重要性。
了解这一点对我们理解抽象的因子含义,即因子命名,有非常重要的作用。
jF2.变量共同度设因子载荷矩阵为A,称第i行元素的平方和2211,2,miijjhai=Lp为变量iX的共同度。
由因子模型,知22211222221222()()()()()()iiiimmiiiimiiiDXaDFaDFaDFDaaaVarh=+=+=+LL上式说明,变量iX的方差由两部分组成:
第一部分为共同度,它描述了全部公共因子对变量2ihiX的总方差所作的贡献,反映了变量iX的方差中能够被全体因子解释的部分。
第二部分为特殊因子i对变量iX的方差的贡献,也就是变量iX的方差中没有被全体因子解释的部分。
变量共同度越高,说明该因子分析模型的解释能力越高。
3.因子的方差贡献设因子载荷矩阵为A,称第j列元素的平方和2211,2,pjijigaj=Lm为因子对jFX的贡献,即表示同一因子对各变量所提供的方差贡献之总和,它是衡2jgjF量每一个因子相对重要性的一个尺度。
由12.1.3节因子载荷阵的表达式:
1122(,mmATTT=L)可知,A中第j列元素的平方和为()()jjjjjjjjTTTT=j(是单位特征向量),即有jT221pjijiag=这说明,第j个公因子的方差贡献就等于样本协差阵的第2jgj大特征根。
在实际应用中,有两种常用的确定因子提取个数m的方法。
一是仅提取方差贡献(2jgj)大于1的因子;
而是利用因子的累积方差贡献率11pmjjjj=来确定公因子提取的个数,也就是寻找一个使得11pmjjjj=达到较大百分比的自然数。
m12.1.5因子命名与因子旋转因子命名与因子旋转因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释,即对因子进行命名。
有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。
例如,可能同一个变量在多个公共因子上都有较大的载荷,也可能多个变量在同一个公共因子上都有较大载荷,说明该因子对多个变量都有较明显的影响作用。
这种因子模型反而很难对因子的实际背景进行合理的解释。
这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。
这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,使同一列上的载荷尽可能地向靠近1和靠近0两极分离。
这时就突出了每个公共因子和其载荷较大的那些变量的联系,该公共因子的含义也就能通过这些载荷较大的变量做出合理的说明。
因子旋转方法有正交旋转和斜交旋转两类,这里我们重点介绍正交旋转。
对公共因子作正交旋转就是对载荷矩阵作一正交变换,右乘正交矩阵A,使得旋转后的因子载荷阵有更鲜明的实际意义。
旋转以后的公共因子向量为BA=*FF=,它的各个分量也是互不相关的公共因子。
根据正交矩阵*12,FF*,mFL的不同选取方式,将构造出不同的正交旋转的方法。
实践中常用的方法是最大方差旋转法,其原理是使得旋转后因子载荷阵B的每一列元素的方差之和达到最大,从而实现使同一列上的载荷尽可能地向靠近1和靠近0两极分离的目的。
值得说明的是,旋转后的因子载荷阵B与旋转前的因子载荷阵相比,各因子的方差贡献发生了变化,已经不再等于样本协差阵的第A2jgj大特征根,但提取出的全部个因子m的总方差贡献率211pmjjjg=2jg却不会改变,仍然等于11pmjjjj=。
另外,因子旋转在改变因子载荷阵的同时,也改变了因子得分。
12.1.6因子得分因子得分因子得分是因子分析的最终体现。
当因子载荷阵确定以后,便可以计算各因子在每个样本上的具体数值,称为因子得分。
得到了因子得分之后,就可以像主成分分析那样,用因子得分来代替原始变量,从而达到降维的效果。
在因子分析模型XAF=+中,如果不考虑特殊因子的影响,当且mp=A可逆时,我们可以非常方便地从每个样品的指标取值X计算出其在因子上的相应取值:
,即该样品在因子上的“得分”情况,简称为该样品的因子得分。
F1FAX=F但是因子分析模型在实际应用中要求mp,因此,不能精确计算出因子的得分情况,只能对因子得分进行估计。
估计因子得分的方法也有很多,常用的方法包括回归法(Regression)、巴特莱特法(Bartlett)、安德森鲁宾法(Anderson-Rubin)等。
可以证明,如果使用回归法,则因子得分可以由下面的式子给出:
1FAX=其中,为样本协差阵。
称mp的矩阵1WA=为因子得分系数矩阵。
应该注意,如果因子载荷阵经过了旋转,则上式中的因子载荷阵应该是旋转后的因子载荷阵。
A12.1.7因子分析的出发点因子分析的出发点从前面的介绍我们知道,因子分析的一切计算都是从样本协差阵出发的,其结果受变量单位的影响。
不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的因子分析结果。
为使因子分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常先将各原始变量作标准化处理,即令*()()iiiXEXXDXi=1,ip=L可以证明,经过标准化的数据*1(,)pXXX=L的协方差矩阵就是X的相关系数矩阵R。
也就是说,如果因子分析的一切计算都直接从样本相关系数矩阵R而不是协差阵出发的话,就等价于先对数据进行标准化,然后再从协差阵出发进行因子分析。
12.2因子分析的实例因子分析的实例本例中采用的是2003年沪、深两市证券交易所48家上市公司的13个财务指标数据。
13个财务指标分别为:
流动比率(X1)、速动比率(X2)、总资产周转率(X3)、存货周转率(X4)、营运资本(X5)、每股收益(X6)、净利润增长率(X7)、每股收益增长率(X8)、主营业务毛利率(X9)、主营业务利润率(X10)、成本费用利润率(X11)、净资产收益率(X12)、总资产利润率(X13)。
这些指标有些之间具有很强的相关性,如果利用所有的13个财务指标对这50家公司进行财务分析,难免出现信息的重叠,而利用因子分析可以解决这个问题。
12.2.1SPSS操作步骤操作步骤1.选择菜单项AnalyzeDataReductionFactor,打开FactorAnalysis对话框,如图12-1。
将原始变量x1x13移入Variables列表框框中。
如果不想使用全部的样本进行分析,且数据文件中存在一个选择变量的话,将该选择变量移入SelectionVariable框中,并单击右边的Value按钮,在跳出的窗口中输入一个筛选值,这样,只有选择变量的值等于输入的筛选值的观测才能参与因子分析。
图12-1FactorAnalysis对话框2.点击Descriptives按钮,打开Descriptives子对话框,如图12-2。
该对话框共有两个选项栏,用于设置输出的结果。
Statistics选项栏中,Univariatedescriptives表示输出原始变量的基本描述统计量;
Initialsolution表示输出因子分析的初始解,包括样本协差阵(相关系数矩阵)的全部p个特征根、方差贡献率以及累积贡献率。
这里选择Initialsolution复选项。
CorrelationMatrix选项栏用于指定输出衡量原始变量之间相关性的统计量和统计表。
如前所述,因子分析的目的是从众多的原始变量中综合出少数具有代表性的因子,这里就有一个潜在的前提,即原始变量之间应该具有较强的相关性,否则因子分析就失去了必要性。
CorrelationMatrix选项栏中各选项的含义如下:
?
Coefficients:
给出原始变量之间的简单相关系数矩阵;
Significancelevels:
给出每个相关系数的显著性检验,检验的原假设是相关系数等于0;
Determinant:
给出相关系数矩阵的行列式;
Inverse:
给出相关系数矩阵的逆矩阵;
Reproduced:
再生相关阵,此项给出因子分析后的的相关阵,还给出残差,即原始相关与再生相关之间的差值;
Anti-image:
给出反映像相关矩阵,如果原始变量之间具有较强的相关性,则反映像相关矩阵对角线上元素的值接近于1,其他元素绝对值均较小;
KMOandBartlettstestofsphericity:
给出KMO检验和Bartlett球形检验。
KMO统计量的取值在0和1之间,KMO值越接近于0表明原始变量相关性越弱,越接近于1表明原始变量相关性越强,通常认为KMO的度量标准是:
0.9以上表示非常适合进行因子分析,0.8以上表示比较适合,0.7表示一般,0.6表示不太适合,0.5以下表示极不适合。
Bartlett球形检验的原假设是:
原始变量的相关系数矩阵是单位阵,即主对角线元素为1,其他元素均为0。
在本例中,我们选择Coefficients、Significancelevels和KMOandBartlettstestofsphericity三个选项。
图12-2Descriptives子对话框3.点击Extraction按钮,打开Extraction子对话框,如图12-3,设置有关因子提取的选项。
在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项Correlationmatr输出项,其中,Unrotatedfactorsolutions表示输目,有两种设置方法:
一种是在Eigenvaluesover后的Principalcomponents,即“主成分法”。
在Analyze选项栏中指定用于提取因子的分析矩阵,分别为相关系数矩阵(ix)和协方差矩阵(Covariancematrix)。
如果选择相关系数矩阵,则表示首先对原始数据进行标准化,然后再进行因子分析;
如果选择协方差矩阵,则表示直接对原始数据进行因子分析。
这里我们选择默认的相关系数矩阵。
在Display选项栏中指定与因子提取有关的出旋转前的因子方差贡献表和旋转前的因子载荷阵;
ScreePlot表示输出因子碎石图。
因子碎石图其实就是样本协差阵的特征根按大小顺序排列的折线图,可以用来帮助确定提取多少个因子。
典型的碎石图会有一个明显的拐点,拐点之前是较大特征根连接形成的陡峭折线,拐点之后是较小特征根连接形成的平缓折线,一般选择拐点之前的特征根数目为提取因子的数目。
这里我们将两个选项都选中。
在Extract选项栏中指定因子提取的数输入框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;
第二种设置方法是直接在Numberoffactors后的输入框中输入要求提取的公因子的数目。
这里我们保持默认选项。
图12-3Extraction子对话框4.点击Rotation按钮,打开Rotation子对话框,如图12-4,设置有关因子旋转的选项。
Method选项栏用于设置因子旋转的方法,可供选择的方法包括方差最大旋转法(Varimax)、直接斜交旋转法(DirectOblimin)、四次方最大正交旋转法(Quartmax)、平均正交旋转法(Equamax)、斜交旋转法(Promax),如果选择None选项,则不进行旋转。
Display选项栏用于设置与因子旋转有关的输出项。
其中,Rotatedfactorsolutions表示输出旋转后的因子方差贡献表和旋转后的因子载荷阵;
Loadingplots表示输出旋转后的因子载荷散点图图,旋转后因子散点图是以因子为坐标轴,以旋转后因子载荷为坐标的散点图,从该散点图中可以直观地观察因子载荷在各因子上的分布状况。
这里我们在Method选项栏中选择Varimax(方差最大旋转),并选择Display栏中的Rotatedsolution复选框。
图12-4Rotation子对话框5.点击Scores按钮,打开FactorScores子对话框,如图12-5,设置有关因子得分的选项。
选中Saveasvariables复选框,表示将因子得分作为新变量保存在数据文件中。
提取了几个框,这样在结果输出窗口中会给出因子得分系因子则会在数据文件中保存几个因子得分变量,变量名为“facm_n”,其中,m表示第m个因子,n表示进行第n次因子分析的结果。
选中Displayfactorscorecoefficientmatrix复选数矩阵。
图12-5FactorScores子对话框6.点击Options按钮,打开Options子对话框,如图12-6,设置对缺失值的处理方法和因子载荷阵的显示方法。
Missingvalues选项栏用于设置对缺失值的处理方法。
其中,Excludecaselistwise表示如果某个观测的所有分析变量中只要由一个带有缺失值,则这个观测就不参与分析;
Excludecasepairwise表示在计算两个变量的协方差或相关系数时,只把这两个变量中带有缺失值的观测删除,即如果一个观测在正在进行相关系数计算的变量中没有缺失值,则即使其它变量中有缺失值,也不影响它参与计算;
Replacewithmean表示如果某变量存在缺失值,则用该变量的均值替代缺失值。
CoefficientDisplayFormat选项栏用于设置因子载荷阵的显示方式。
其中,Sortedbysize表示因子载荷阵按照因子载荷的大小顺序排列,使同一因子上具有较大载荷的变量排在一起,便于观察;
Suppressabsolutevalueslessthan表示不显示绝对值太小的因子载荷,如果提取的因子很多,则该选项可以突出载荷较大的变量,便于观察。
图12-6Options子对话框7.在主对话框中单击OK按钮,执行因子分析命令。
12.2.2实例结果分析实例结果分析表1表12-1和表12-2给出了原始变量之间的相关性检验结果。
2-1的上半部分是原始变量的相关系数矩阵,可以看到,矩阵中存在许多比较高的相关系数;
表12-1的下半部分是相关系数显著性检验的p值,其中存在大量的小于0.05的值,这些都说明原始变量之间存在着较强的相关性,具有进行因子分析的必要性。
表12-2给出了KMO检验统计量与Bartlett球形检验结果。
KMO统计量等于0.718,Bartlett球形检验的p值为0.000,这些也都说明本例中的数据比较适合进行因子分析。
表12-1相关系数矩阵及相关显著性检验CorrelationMatrix1.000.861-.05-.2.733.127.112.153.084.158.240.177.172.8611.0.105.082.917.351.261.263.233.345.427.378.409-.054.1051.0.746.136.602.327.337.0.357.397.587.581-.166.082.7461.0.121.522.306.319.009.318.408.538.541.733.917.136.1211.0.354.266.242.192.307.367.348.393.127.351.602.522.3541.0.598.560.470.777.777.933.952.112.261.327.306.266.5981.0.958.197.363.464.625.565.153.263.337.319.242.560.9581.0.223.293.533.633.546.084.233-.02.009.192.470.197.2231.0.499.643.530.553.158.345.357.318.307.777.363.293.4991.0.819.834.819.240.427.397.408.367.777.464.533.643.8191.0.906.867.177.378.587.538.348.933.625.633.530.834.9061.0.965.172.409.581.541.393.952.565.546.553.819.867.9651.0.000.359.130.000.194.224.150.285.142.050.114.121.000.240.289.000.007.036.036.055.008.001.004.002.359.240.000.178.000.012.010.455.006.003.000.000.130.289.000.206.000.017.014.477.014.002.000.000.000.000.178.206.007.034.049.095.017.005.008.003.194.007.000.000.007.000.000.000.000.000.000.000.224.036.012.017.034.000.000.090.006.000.000.000.150.036.010.014.049.000.000.064.022.000.000.000.285.055.455.477.095.000.090.064.000.000.000.000.142.008.006.014.017.000.006.022.000.000.000.000.050.001.003.002.005.000.000.000.000.000.000.000.114.004.000.000.008.000.000.000.000.000.000.000.121.002.000.000.003.000.000.000.000.000.000.000X1X2X3X4X5X6X7X8X9X10X11X12X13X1X2X3X4X5X6X7X8X9X10X11X12X13CorrelationSig.X1X2X3X4X5X6X7X8X9X10X11X12X13表12-2KMO检验与Bartlett球形检验KMOandBartlettsTest.718839.69378.000Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.Approx.Chi-SquaredfSig.BartlettsTestofSphericity表12-3给出了13个原始变量的变量共同度。
变量共同度反映每个变量对提取出的所有公共因子的依赖程度。
从表12-3来看,几乎所有的变量共同度都在80%甚至90%以上,说明提取的因子已经包含了原始变量的大部分信息,因子提取的效果比较理想。
表12-3变量共同度Communalities1.000.8771.000.9651.000.8581.000.8251.000.8781.000.8901.000.9731.000.9801.000.7841.000.8091.000.8851.000.9741.000.956X1X2X3X4X5X6X7X8X9X10X11X12X13InitialExtractionExtractionMethod:
PrincipalComponentAnalysis.表12-4给出了因子分析各个阶段的特征根与方差贡献表。
其中,InitialEigenvalues栏给出初始的样本相关系数矩阵或协差阵的特征根,用于确定哪些因子应该被提取,共有三项:
Total列为各因子对应的特征根,本例中共有4个因子对应的特征根大于1,因此应提取相应的四个公因子;
%ofVariance列为各因子的方差贡献率;
Cumulative%列为各因子的累积方差贡献率。
ExtractionSumso
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 很好 因子分析 议和 实例