统计学因子分析论文.docx
- 文档编号:12874359
- 上传时间:2023-06-08
- 格式:DOCX
- 页数:25
- 大小:107.52KB
统计学因子分析论文.docx
《统计学因子分析论文.docx》由会员分享,可在线阅读,更多相关《统计学因子分析论文.docx(25页珍藏版)》请在冰点文库上搜索。
统计学因子分析论文
统计学因子分析论文
LT
2、因子分析法和基本思想
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
例如,某公司对100名招聘人员的知识和能进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:
语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子。
假设100人测试的分数{Xi,i=1,…,100}可以用上述六个因子表示成线性函数:
Xi=ai1F1+ai2F2+…+ai6F6+
ii=1,…,100
其中F1,…,F6表示六个因子,它对所有Xi是共有的因子,通常称为公共因子,它们的系数ai1,…,ai6称为因子载荷,它表示第i个应试人员在六个因子方面的能力。
是第i个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定
~N(0,
i),仔细观察这个模型与回归模型在形式有些相似,实质很不同。
这里的F1,…,F6的值未知的,并且有关参数的统计意义更不一样。
因子分析的任务,首先是估计出{aij}和方差{
},然后将这些抽象因子{Fi}赋予有实际背景的解释或说给以命名。
利用综合出的少数因子,以再现原始变量和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。
基本思想:
因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量相关性(或相似性)较低。
二、因子分析
1、R型因子分析的数学模型描述:
(1)X=(X1,X2,…,Xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。
(2)A=(aij),
(3)F=(F1,F2,…,Fm)(m
(4)
=(
,
,…,
)与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:
X1=a11F1+a12F2+…+a1mFm+
X2=a21F1+a22F2+…+a2mFm+
………
Xp=ap1F1+ap2F2+…+apmFm+
称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。
其矩阵形式为:
X=AF+
.
其中,
(1)m
p;
(2)Cov(F,
)=0,即F和
是不相关的;
(3)D(F)=Im,即F1,F2,…,Fm不相关且方差均为1;
D(
)=
,即
=(
,
,…,
)不相关,且方差不同。
我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,
称为X的特殊因子。
A=(aij),aij为因子载荷。
数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。
2.因子模型中公共因子、因子载荷和变量共同度的统计意义
模型中F1,F2,…,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。
公共因子的含义,必须结合具体问题的实际意义而定。
,
,…,
叫做特殊因子,是向量x的分量Xi=1,2,…,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。
模型中载荷矩阵A中的元素(aij)是为因子载荷。
因子载荷aij是Xi与Fj的协方差,也是Xi与Fj的相关系数,它表示Xi依赖Fj的程度。
可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|
1),表明Xi与Fj的相依程度越大,或称公共因子Fj对于Xi的载荷量越大。
为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。
因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量Xi的共同度。
它是全部公共因子对Xi的方差所做出的贡献,反映了全部公共因子对变量Xi的影响。
hi2大表明X的第i个分量Xi对于F的每一分量F1,F2,…,Fm的共同依赖程度大。
将因子载荷矩阵A的第j列(j=1,2,…,m)的各元素的平方和记为gj2,称为公共因子Fj对X的方差贡献。
gj2就表示第j个公共因子Fj对于X的每一分量Xi(i=1,2,…,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。
gj2越大,表明公共因子Fj对X的贡献越大,或者说对x的影响和作用就越大。
如果将因子载荷矩阵A的所有gj2(j=1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。
3.因子旋转
建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。
如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。
旋转的方法有很多,正交旋转和斜交旋转是因子旋转的两类方法。
进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。
因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。
4.因子得分
因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。
例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。
这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。
设公共因子F由变量x表示的线性组合为:
Fj=Uj1Xj1+Uj2Xj2+…+UjpXjpj=1,2,…,m
该式称为因子得分函数,由它来计算每个样品的公共因子得分。
若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。
三、农村居民家庭平均每百户主要耐用消费品拥有量的因子分析
各地区农村居民家庭平均每百户主要耐用消费品拥有量(2009年底)
地区
电冰箱
(台)X1
空调机
(台)X2
抽油烟机
(台)X3
自行车
(辆)X4
摩托车
(辆)X5
电话机
(部)X6
移动电话
(部)X7
彩色电视机
(台)X8
照相机
(台)X9
家用计算机
(台)X10
全国
37.11
12.23
9.75
96.45
56.64
62.68
115.24
108.94
4.76
7.46
北京
104.67
86.53
58.93
180.27
29.87
112.13
208.53
137.60
34.13
52.27
天津
85.33
55.50
27.67
184.33
51.33
88.67
129.67
123.00
11.83
12.50
河北
41.45
8.50
7.07
185.38
62.67
66.07
91.19
115.52
3.86
6.05
山西
25.52
3.90
4.62
113.76
57.10
76.05
94.29
107.14
4.62
6.24
内蒙古
36.99
0.63
2.72
61.07
66.21
35.15
115.58
97.48
2.52
1.89
辽宁
53.97
1.01
9.79
103.12
57.83
92.35
107.35
110.90
7.30
5.93
吉林
40.50
0.06
2.63
61.75
61.00
53.13
151.81
111.06
2.56
4.63
黑龙江
45.85
0.58
7.37
73.30
50.27
60.85
127.14
107.14
2.41
7.86
上海
101.00
134.83
71.00
173.33
49.33
97.17
173.83
190.17
24.00
54.33
江苏
53.35
39.59
22.06
159.56
63.44
91.88
143.74
134.74
11.24
8.24
浙江
88.85
76.52
52.89
128.30
55.22
90.78
179.89
162.26
12.04
31.07
安徽
51.42
19.26
5.84
104.06
53.35
69.90
110.58
106.10
3.48
4.32
福建
62.69
26.98
18.68
55.38
89.45
81.59
182.64
122.53
5.71
17.86
江西
34.70
6.20
2.65
83.47
58.29
53.84
127.35
103.84
2.45
3.35
山东
54.95
12.64
14.88
175.21
70.29
70.74
141.33
110.74
7.76
10.83
河南
34.43
15.05
2.29
132.33
51.95
35.52
126.24
103.76
2.31
4.05
湖北
41.36
12.45
7.70
68.47
59.76
55.61
134.21
105.42
2.58
5.15
湖南
32.03
7.32
2.19
47.38
41.86
57.76
106.27
93.54
1.95
3.00
广东
41.33
30.98
22.62
99.88
101.56
82.15
184.38
116.60
8.05
16.21
广西
21.02
2.81
1.39
87.36
72.58
60.78
125.15
97.88
2.21
2.99
海南
11.25
1.25
0.56
39.31
96.81
45.14
110.97
99.03
1.53
1.81
重庆
43.61
10.11
1.50
11.97
22.33
56.94
107.78
95.28
1.56
1.83
四川
40.45
5.18
2.00
40.85
36.53
59.23
118.18
101.18
2.70
3.73
贵州
19.29
0.98
1.29
6.29
26.79
38.08
82.50
88.13
0.71
0.98
云南
12.33
0.25
2.92
27.29
38.83
29.54
115.25
92.33
2.42
1.21
西藏
12.29
6.20
2.92
36.88
38.13
40.63
36.25
68.13
1.88
0.21
陕西
19.23
4.41
2.03
112.32
47.34
57.52
140.81
104.37
2.25
4.59
甘肃
14.39
0.28
2.06
100.44
53.94
60.56
95.11
103.72
2.44
2.72
青海
37.00
0.33
1.67
37.00
73.33
63.17
123.50
97.17
2.33
1.17
宁夏
27.67
0.17
2.33
118.67
83.67
63.83
151.83
120.33
2.67
4.00
新疆
36.26
0.65
1.55
80.39
56.32
41.29
73.35
83.61
3.94
1.68
数据来源:
2010年《中国统计年鉴》
1、描述统计
DescriptiveStatistics
Mean
Std.Deviation(a)
AnalysisN(a)
MissingN
X1
42.5716
24.22307
32
0
X2
18.2306
30.40739
32
0
X3
11.7366
17.71186
32
0
X4
93.2991
51.98619
32
0
X5
57.3131
18.55135
32
0
X6
64.0853
20.15434
32
0
X7
125.9981
35.30392
32
0
X8
109.9888
22.45937
32
0
X9
5.6937
6.96322
32
0
X10
9.0675
13.14554
32
0
aForeachvariable,missingvaluesarereplacedwiththevariablemean.
2、因子分析的前提条件
CorrelationMatrix原有变量的相关系数矩阵
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
Correlation
X1
1.000
.858
.883
.607
-.106
.799
.661
.804
.840
.847
X2
.858
1.000
.972
.577
-.117
.706
.614
.874
.875
.935
X3
.883
.972
1.000
.594
-.069
.767
.673
.884
.915
.967
X4
.607
.577
.594
1.000
.125
.658
.416
.651
.636
.556
X5
-.106
-.117
-.069
.125
1.000
.111
.306
.120
-.143
-.079
X6
.799
.706
.767
.658
.111
1.000
.634
.761
.777
.737
X7
.661
.614
.673
.416
.306
.634
1.000
.737
.629
.706
X8
.804
.874
.884
.651
.120
.761
.737
1.000
.739
.845
X9
.840
.875
.915
.636
-.143
.777
.629
.739
1.000
.933
X10
.847
.935
.967
.556
-.079
.737
.706
.845
.933
1.000
从相关系数矩阵得知:
大部分的相关系数都比较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.849
Bartlett'sTestofSphericity
Approx.Chi-Square
406.913
df
45
Sig.
.000
由图可知:
巴特利特球度检验统计量的观测值为406.913,相应的概率P-值接近0。
同时,KOM值为0.849,根据KOM度量标准可知此数据适合做因子分析。
3、因子提取和因子载荷矩阵的求解
Communalities
因子分析的初始解一
Initial
Extraction
X1
1.000
.860
X2
1.000
.912
X3
1.000
.953
X4
1.000
.522
X5
1.000
.937
X6
1.000
.753
X7
1.000
.722
X8
1.000
.861
X9
1.000
.892
X10
1.000
.923
ExtractionMethod:
PrincipalComponentAnalysis.
是因子分析的初始解,显示了所有数据变量的共同度数据。
可以看到:
X1、X2、X3、X5、X8、X9、X10等变量的绝大部分信息(大于90%)可被因子解释,这些变量的信息丢失较少。
但X4、X6、X7三个变量的信息丢失较为严重(近32%)。
因此,本次因子提取的总体效果并不理想。
重新制定提取特征根的标准,指定提取3个因子,分析结果如下:
Communalities因子分析的初始解二
Initial
Extraction
X1
1.000
.860
X2
1.000
.919
X3
1.000
.962
X4
1.000
.944
X5
1.000
.938
X6
1.000
.786
X7
1.000
.854
X8
1.000
.862
X9
1.000
.893
X10
1.000
.947
ExtractionMethod:
PrincipalComponentAnalysis.
是指定提取3个特征根下的因子分析的初始解。
由第二列可知:
此时所有变量的共同度均较高,各个变量的信息丢失都较少。
因此,本次因子提取的总体效果较理想。
TotalVarianceExplained因子解释原有变量总方差的情况
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
7.079
70.792
70.792
7.079
70.792
70.792
5.918
59.185
59.185
2
1.255
12.546
83.338
1.255
12.546
83.338
1.795
17.951
77.136
3
.632
6.318
89.657
.632
6.318
89.657
1.252
12.521
89.657
4
.325
3.253
92.910
5
.256
2.558
95.468
6
.227
2.274
97.742
7
.142
1.421
99.163
8
.041
.414
99.577
9
.027
.268
99.845
10
.015
.155
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
由方差解释表可知特征值
=7.079,
=1.255,
=0.632,…………,相应的方差贡献的百分比为:
第一公共因子:
70.797%,第二公共因子:
12.54%,第三公共因子6.318%,…………,取前三个公共因子时的累计贡献率已经达到89.657%,已经达到85%的要求,所以取三个公共因子。
由图可知:
横坐标为因子分析数目,纵坐标为特征根。
第一个因子的特征根值很高,对解释原有变量的贡献最大;第三个以后的因子特征根值都很小,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取3个因子是合适的。
ComponentMatrix(a)初始因子载荷矩阵
Component
1
2
3
X3
.969
-.116
X10
.953
-.121
-.158
X2
.939
-.172
X9
.927
-.180
X1
.921
-.114
X8
.918
.137
X6
.856
.140
.181
X7
.758
.384
-.363
X4
.703
.168
.650
X5
.968
ExtractionMethod:
PrincipalComponentAnalysis.
a3componentsextracted.
可知,10个变量在第一个因子的载荷值都很高。
即说明他们与第一个因子的相关程度高,而第二,三个因子与原有变量的相关性均很差,对原有变量的解释不显著。
无法进行因子解释。
于是采用方差最大法对因子载荷矩阵实施正交旋转。
4、使因子更具有命名可解释性
RotatedComponentMatrix(a)旋转后的因子载荷矩阵
Component
1
2
3
X10
.940
.247
X3
.929
.310
X2
.903
.299
-.116
X9
.847
.395
-.142
X1
.845
.376
X8
.832
.369
.181
X7
.797
.466
X6
.686
.542
.149
X4
.350
.901
.101
X5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 因子分析 论文
![提示](https://static.bingdoc.com/images/bang_tan.gif)