书签分享收藏举报版权申诉 / 25

立即下载加入VIP,免费下载

当前位置：首页 > IT计算机 > 电脑基础知识 > 统计学因子分析论文.docx

统计学因子分析论文.docx

文档编号：12874359
上传时间：2023-06-08
格式：DOCX
页数：25
大小：107.52KB

统计学因子分析论文.docx

《统计学因子分析论文.docx》由会员分享，可在线阅读，更多相关《统计学因子分析论文.docx（25页珍藏版）》请在冰点文库上搜索。

统计学因子分析论文.docx

统计学因子分析论文

LT

2、因子分析法和基本思想

因子分析是主成分分析的推广和发展，它也是将具有错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类，它也是属于多元分析中处理降维的一种统计方法。

因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

它的基本思想是将观测变量进行分类，将相关性较高，即联系比较紧密的分在同一类中，而不同类变量之间的相关性则较低，那么每一类变量实际上就代表了一个基本结构，即公共因子。

对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

例如，某公司对100名招聘人员的知识和能进行测试，出了50道题的试卷，其内容包括的面较广，但总的来讲可归纳为六个方面：

语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等，我们将每一个方面称为因子。

假设100人测试的分数{Xi，i=1，…，100}可以用上述六个因子表示成线性函数：

Xi=ai1F1+ai2F2+…+ai6F6+

ii=1,…,100

其中F1，…，F6表示六个因子，它对所有Xi是共有的因子，通常称为公共因子，它们的系数ai1,…,ai6称为因子载荷，它表示第i个应试人员在六个因子方面的能力。

是第i个应试人的能力和知识不能被前六个因子包括的部分，称为特殊因子,通常假定

～N（0,

i）,仔细观察这个模型与回归模型在形式有些相似，实质很不同。

这里的F1,…,F6的值未知的，并且有关参数的统计意义更不一样。

因子分析的任务，首先是估计出{aij}和方差{

}，然后将这些抽象因子{Fi}赋予有实际背景的解释或说给以命名。

利用综合出的少数因子，以再现原始变量和因子之间的相互关系，以达到降维和对原始变量进行分类的目的。

基本思想：

因子分析的基本思想是通过变量（或样品）的相关系数矩阵（对样品是相似系数矩阵）内部结构的研究，找出能控制所有变量（或样品）的少数几个随机变量去描述多个变量（或样品）之间的相关（相似）关系，但在这里，这少数几个随机变量是不可观测的，通常称为因子。

然后根据相关性（或相似性）的大小把变量（或样品）分组，使得同组内的变量相关性（或相似性）较低。

二、因子分析

1、R型因子分析的数学模型描述：

（1）X=（X1，X2，…，Xp）是可观测随机向量，均值向量E（X）=0，协方差阵Cov（X）=∑，且协方差阵∑与相关矩阵R相等（只要将变量标准化即可实现）。

（2）A=（aij），

（3）F=（F1，F2，…，Fm）（m

（4）

=（

，

，…，

）与F相互独立，且E（e）=0，e的协方差阵∑是对角阵，即各分量e之间是相互独立的，则模型：

　X1=a11F1+a12F2+…+a1mFm+

　　X2=a21F1+a22F2+…+a2mFm+

　　………

　　Xp=ap1F1+ap2F2+…+apmFm+

　　称为因子分析模型，由于该模型是针对变量进行的，各因子又是正交的，所以也称为R型正交因子模型。

　　其矩阵形式为：

X=AF+

.

　　其中，

（1）m

p；

（2）Cov（F，

）=0，即F和

是不相关的；

　　（3）D（F）=Im，即F1，F2，…，Fm不相关且方差均为1；

　　D（

）=

，即

=（

，

，…，

）不相关，且方差不同。

　　我们把F称为X的公共因子或潜因子，矩阵A称为因子载荷矩阵，

称为X的特殊因子。

　　A=（aij），aij为因子载荷。

数学上可以证明，因子载荷aij就是第i变量与第j因子的相关系数，反映了第i变量在第j因子上的重要性。

　　2.因子模型中公共因子、因子载荷和变量共同度的统计意义

　　模型中F1，F2，…，Fm叫做主因子或公共因子，它们是在各个原观测变量的表达式中都共同出现的因子，是相互独立的不可观测的理论变量。

公共因子的含义，必须结合具体问题的实际意义而定。

，

，…，

叫做特殊因子，是向量x的分量Xi=1，2，…，p）所特有的因子，各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。

模型中载荷矩阵A中的元素（aij）是为因子载荷。

因子载荷aij是Xi与Fj的协方差，也是Xi与Fj的相关系数，它表示Xi依赖Fj的程度。

可将aij看作第i个变量在第j公共因子上的权，aij的绝对值越大（|aij|

1），表明Xi与Fj的相依程度越大，或称公共因子Fj对于Xi的载荷量越大。

为了得到因子分析结果的经济解释，因子载荷矩阵A中有两个统计量十分重要，即变量共同度和公共因子的方差贡献。

　　因子载荷矩阵A中第i行元素之平方和记为hi2，称为变量Xi的共同度。

它是全部公共因子对Xi的方差所做出的贡献，反映了全部公共因子对变量Xi的影响。

hi2大表明X的第i个分量Xi对于F的每一分量F1，F2，…，Fm的共同依赖程度大。

　　将因子载荷矩阵A的第j列（j=1，2，…，m）的各元素的平方和记为gj2，称为公共因子Fj对X的方差贡献。

gj2就表示第j个公共因子Fj对于X的每一分量Xi（i=1，2，…，p）所提供方差的总和，它是衡量公共因子相对重要性的指标。

gj2越大，表明公共因子Fj对X的贡献越大，或者说对x的影响和作用就越大。

如果将因子载荷矩阵A的所有gj2（j=1，2，…，m）都计算出来，使其按照大小排序，就可以依此提炼出最有影响力的公共因子。

　　3.因子旋转

　　建立因子分析模型的目的不仅是找出主因子，更重要的是知道每个主因子的意义，以便对实际问题进行分析。

如果求出主因子解后，各个主因子的典型代表变量不很突出，还需要进行因子旋转，通过适当的旋转得到比较满意的主因子。

旋转的方法有很多，正交旋转和斜交旋转是因子旋转的两类方法。

进行因子旋转，就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化，使大的载荷更大，小的载荷更小。

因子旋转过程中，如果因子对应轴相互正交，则称为正交旋转；如果因子对应轴相互间不是正交的，则称为斜交旋转。

4.因子得分

　　因子分析模型建立后，还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位，即进行综合评价。

例如地区经济发展的因子分析模型建立后，我们希望知道每个地区经济发展的情况，把区域经济划分归类，哪些地区发展较快，哪些中等发达，哪些较慢等。

这时需要将公共因子用变量的线性组合来表示，也即由地区经济的各项指标值来估计它的因子得分。

　　设公共因子F由变量x表示的线性组合为：

　　Fj=Uj1Xj1+Uj2Xj2+…+UjpXjpj=1，2，…，m

　　该式称为因子得分函数，由它来计算每个样品的公共因子得分。

若取m=2，则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2，并将其在平面上做因子得分散点图，进而对样品进行分类或对原始数据进行更深入的研究。

三、农村居民家庭平均每百户主要耐用消费品拥有量的因子分析

各地区农村居民家庭平均每百户主要耐用消费品拥有量（2009年底）

地区

电冰箱

（台）X1

空调机

（台）X2

抽油烟机

（台）X3

自行车

（辆）X4

摩托车

（辆）X5

电话机

（部）X6

移动电话

（部）X7

彩色电视机

（台）X8

照相机

（台）X9

家用计算机

（台）X10

全国

37.11

12.23

9.75

96.45

56.64

62.68

115.24

108.94

4.76

7.46

北京

104.67

86.53

58.93

180.27

29.87

112.13

208.53

137.60

34.13

52.27

天津

85.33

55.50

27.67

184.33

51.33

88.67

129.67

123.00

11.83

12.50

河北

41.45

8.50

7.07

185.38

62.67

66.07

91.19

115.52

3.86

6.05

山西

25.52

3.90

4.62

113.76

57.10

76.05

94.29

107.14

4.62

6.24

内蒙古

36.99

0.63

2.72

61.07

66.21

35.15

115.58

97.48

2.52

1.89

辽宁

53.97

1.01

9.79

103.12

57.83

92.35

107.35

110.90

7.30

5.93

吉林

40.50

0.06

2.63

61.75

61.00

53.13

151.81

111.06

2.56

4.63

黑龙江

45.85

0.58

7.37

73.30

50.27

60.85

127.14

107.14

2.41

7.86

上海

101.00

134.83

71.00

173.33

49.33

97.17

173.83

190.17

24.00

54.33

江苏

53.35

39.59

22.06

159.56

63.44

91.88

143.74

134.74

11.24

8.24

浙江

88.85

76.52

52.89

128.30

55.22

90.78

179.89

162.26

12.04

31.07

安徽

51.42

19.26

5.84

104.06

53.35

69.90

110.58

106.10

3.48

4.32

福建

62.69

26.98

18.68

55.38

89.45

81.59

182.64

122.53

5.71

17.86

江西

34.70

6.20

2.65

83.47

58.29

53.84

127.35

103.84

2.45

3.35

山东

54.95

12.64

14.88

175.21

70.29

70.74

141.33

110.74

7.76

10.83

河南

34.43

15.05

2.29

132.33

51.95

35.52

126.24

103.76

2.31

4.05

湖北

41.36

12.45

7.70

68.47

59.76

55.61

134.21

105.42

2.58

5.15

湖南

32.03

7.32

2.19

47.38

41.86

57.76

106.27

93.54

1.95

3.00

广东

41.33

30.98

22.62

99.88

101.56

82.15

184.38

116.60

8.05

16.21

广西

21.02

2.81

1.39

87.36

72.58

60.78

125.15

97.88

2.21

2.99

海南

11.25

1.25

0.56

39.31

96.81

45.14

110.97

99.03

1.53

1.81

重庆

43.61

10.11

1.50

11.97

22.33

56.94

107.78

95.28

1.56

1.83

四川

40.45

5.18

2.00

40.85

36.53

59.23

118.18

101.18

2.70

3.73

贵州

19.29

0.98

1.29

6.29

26.79

38.08

82.50

88.13

0.71

0.98

云南

12.33

0.25

2.92

27.29

38.83

29.54

115.25

92.33

2.42

1.21

西藏

12.29

6.20

2.92

36.88

38.13

40.63

36.25

68.13

1.88

0.21

陕西

19.23

4.41

2.03

112.32

47.34

57.52

140.81

104.37

2.25

4.59

甘肃

14.39

0.28

2.06

100.44

53.94

60.56

95.11

103.72

2.44

2.72

青海

37.00

0.33

1.67

37.00

73.33

63.17

123.50

97.17

2.33

1.17

宁夏

27.67

0.17

2.33

118.67

83.67

63.83

151.83

120.33

2.67

4.00

新疆

36.26

0.65

1.55

80.39

56.32

41.29

73.35

83.61

3.94

1.68

数据来源：

2010年《中国统计年鉴》

1、描述统计

DescriptiveStatistics

Mean

Std.Deviation（a）

AnalysisN（a）

MissingN

X1

42.5716

24.22307

32

0

X2

18.2306

30.40739

32

0

X3

11.7366

17.71186

32

0

X4

93.2991

51.98619

32

0

X5

57.3131

18.55135

32

0

X6

64.0853

20.15434

32

0

X7

125.9981

35.30392

32

0

X8

109.9888

22.45937

32

0

X9

5.6937

6.96322

32

0

X10

9.0675

13.14554

32

0

aForeachvariable,missingvaluesarereplacedwiththevariablemean.

2、因子分析的前提条件

CorrelationMatrix原有变量的相关系数矩阵

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

Correlation

X1

1.000

.858

.883

.607

-.106

.799

.661

.804

.840

.847

X2

.858

1.000

.972

.577

-.117

.706

.614

.874

.875

.935

X3

.883

.972

1.000

.594

-.069

.767

.673

.884

.915

.967

X4

.607

.577

.594

1.000

.125

.658

.416

.651

.636

.556

X5

-.106

-.117

-.069

.125

1.000

.111

.306

.120

-.143

-.079

X6

.799

.706

.767

.658

.111

1.000

.634

.761

.777

.737

X7

.661

.614

.673

.416

.306

.634

1.000

.737

.629

.706

X8

.804

.874

.884

.651

.120

.761

.737

1.000

.739

.845

X9

.840

.875

.915

.636

-.143

.777

.629

.739

1.000

.933

X10

.847

.935

.967

.556

-.079

.737

.706

.845

.933

1.000

从相关系数矩阵得知：

大部分的相关系数都比较高，各变量呈较强的线性关系，能够从中提取公共因子，适合进行因子分析。

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.849

Bartlett'sTestofSphericity

Approx.Chi-Square

406.913

df

45

Sig.

.000

由图可知：

巴特利特球度检验统计量的观测值为406.913，相应的概率P-值接近0。

同时，KOM值为0.849，根据KOM度量标准可知此数据适合做因子分析。

3、因子提取和因子载荷矩阵的求解

Communalities

因子分析的初始解一

Initial

Extraction

X1

1.000

.860

X2

1.000

.912

X3

1.000

.953

X4

1.000

.522

X5

1.000

.937

X6

1.000

.753

X7

1.000

.722

X8

1.000

.861

X9

1.000

.892

X10

1.000

.923

ExtractionMethod:

PrincipalComponentAnalysis.

是因子分析的初始解，显示了所有数据变量的共同度数据。

可以看到：

X1、X2、X3、X5、X8、X9、X10等变量的绝大部分信息（大于90%）可被因子解释，这些变量的信息丢失较少。

但X4、X6、X7三个变量的信息丢失较为严重（近32%）。

因此，本次因子提取的总体效果并不理想。

重新制定提取特征根的标准，指定提取3个因子，分析结果如下：

Communalities因子分析的初始解二

Initial

Extraction

X1

1.000

.860

X2

1.000

.919

X3

1.000

.962

X4

1.000

.944

X5

1.000

.938

X6

1.000

.786

X7

1.000

.854

X8

1.000

.862

X9

1.000

.893

X10

1.000

.947

ExtractionMethod:

PrincipalComponentAnalysis.

是指定提取3个特征根下的因子分析的初始解。

由第二列可知：

此时所有变量的共同度均较高，各个变量的信息丢失都较少。

因此，本次因子提取的总体效果较理想。

TotalVarianceExplained因子解释原有变量总方差的情况

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

RotationSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

1

7.079

70.792

7.079

70.792

5.918

59.185

2

1.255

12.546

83.338

1.255

12.546

83.338

1.795

17.951

77.136

3

.632

6.318

89.657

.632

6.318

89.657

1.252

12.521

89.657

4

.325

3.253

92.910

5

.256

2.558

95.468

6

.227

2.274

97.742

7

.142

1.421

99.163

8

.041

.414

99.577

9

.027

.268

99.845

10

.015

.155

100.000

ExtractionMethod:

PrincipalComponentAnalysis.

由方差解释表可知特征值

=7.079，

=1.255，

=0.632，…………，相应的方差贡献的百分比为：

第一公共因子：

70.797%，第二公共因子：

12.54%，第三公共因子6.318%，…………，取前三个公共因子时的累计贡献率已经达到89.657%，已经达到85%的要求，所以取三个公共因子。

由图可知：

横坐标为因子分析数目，纵坐标为特征根。

第一个因子的特征根值很高，对解释原有变量的贡献最大；第三个以后的因子特征根值都很小，对解释原有变量的贡献很小，已经成为可被忽略的，因此提取3个因子是合适的。

ComponentMatrix（a）初始因子载荷矩阵

Component

1

2

3

X3

.969

-.116

X10

.953

-.121

-.158

X2

.939

-.172

X9

.927

-.180

X1

.921

-.114

X8

.918

.137

X6

.856

.140

.181

X7

.758

.384

-.363

X4

.703

.168

.650

X5

.968

ExtractionMethod:

PrincipalComponentAnalysis.

a3componentsextracted.

可知，10个变量在第一个因子的载荷值都很高。

即说明他们与第一个因子的相关程度高，而第二，三个因子与原有变量的相关性均很差，对原有变量的解释不显著。

无法进行因子解释。

于是采用方差最大法对因子载荷矩阵实施正交旋转。

4、使因子更具有命名可解释性

RotatedComponentMatrix（a）旋转后的因子载荷矩阵

Component

1

2

3

X10

.940

.247

X3

.929

.310

X2

.903

.299

-.116

X9

.847

.395

-.142

X1

.845

.376

X8

.832

.369

.181

X7

.797

.466

X6

.686

.542

.149

X4

.350

.901

.101

X5

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计学因子分析论文

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：统计学因子分析论文.docx
链接地址：https://www.bingdoc.com/p-12874359.html

统计学因子分析论文.docx

热门标签