北师大应用多元统计分析作业主成分分析.pdf
- 文档编号:3434499
- 上传时间:2023-05-05
- 格式:PDF
- 页数:11
- 大小:425.23KB
北师大应用多元统计分析作业主成分分析.pdf
《北师大应用多元统计分析作业主成分分析.pdf》由会员分享,可在线阅读,更多相关《北师大应用多元统计分析作业主成分分析.pdf(11页珍藏版)》请在冰点文库上搜索。
1应用多元统计分析作业
(一)主成分分析应用多元统计分析作业
(一)主成分分析81:
用主成分分析方法探讨城市工业主体结构。
:
用主成分分析方法探讨城市工业主体结构。
解:
执行解:
执行SAS程序代码:
程序代码:
datadxiti81;inputnumberx1-x8;cards;19034252455101091192728216.11974350.17224903197320351031334.27.15920770.00336735211393767178036.18.27263960.00344945436241815572250498.125.93482260.98551391902035052158981060993.212.61395720.6286122151621910351638262.58.71458180.066723726572810312329184.422.2209210.152811062230785493523804370.441654860.263917111239075210821796221.521.5638060.2761012063930612615586330.429.518400.4371121505704620010870184.21289130.27412525161551038316875146.427.5787960.151131434113203193961469194.617.863541.574;procprincompdata=dxiti81out=oxiti81;varx1-x8;run;procsortdata=oxiti81;byprin1;procprint;idnumber;varprin1;run;procsortdata=oxiti81;byprin2;procprint;idnumber;varprin2;run;procsortdata=oxiti81;byprin3;procprint;idnumber;varprin3;2run;procplot;plotprin2*prin1=number;run;procclusterdata=oxiti81method=avepseudocccouttree=tr81;varx1-x8;idnumber;proctreedata=tr81horizontalgraphics;run;结果分析:
结果分析:
我们使用原始数据的相关系数矩阵计算特征根矩阵。
通过观察这8个变量之间的两两相关系数矩阵两两相关系数矩阵(表1)表1:
CorrelationMatrix表1:
CorrelationMatrixx1x2x3x4x5x6x7x8x1x2x3x4x5x6x7x8x1x11.00000.91960.96200.1089-.2886-.16630.00670.2140x2x20.91961.00000.9468-.0550-.1973-.1709-.01490.1855x3x30.96200.94681.00000.2329-.10360.0042-.07810.2467x4x40.1089-.05500.23291.00000.55990.7809-.44970.3009x5x5-.2886-.1973-.10360.55991.00000.8266-.6088-.0295x6x6-.1663-.17090.00420.78090.82661.0000-.49220.1742x7x70.0067-.0149-.0781-.4497-.6088-.49221.0000-.2999x8x80.21400.18550.24670.3009-.02950.1742-.29991.0000我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。
而与,与,与,与其他所有指标之间的相关系数均较小,由此可以得到初步的分析结论:
、和应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。
根据分析家系统画出的碎石图和特征根的累积方差贡献率(表2)3表表2主成分主成分ProportionCumulative10.38810.388120.36220.750330.11630.866640.08030.946850.03800.984860.01080.995770.00400.999780.00031.0000可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。
根据特征向量(表3),可以写出上述确定的三个主成分的表达式确定的三个主成分的表达式如下(均为标准化后的变量):
下面利用特征向量的值对选取的主成分进行解释:
下面利用特征向量的值对选取的主成分进行解释:
对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而的特征向量系数均在0.3左右,且均为负值,结合和指标所代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”;对第三个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。
利用主成分得分对行业进行排序:
利用主成分得分对行业进行排序:
表4按第一主成分排序按第一主成分排序按第二主成分排序按第二主成分排序按第三主成分排序按第三主成分排序numberPrin1numberPrin2numberPrin382.1949833.22553132.8063102.0318622.5916440.99768121.2014161.77361110.1225571.1025110.7556160.0311490.8411770.3179320.22831110.71333120.03034100.23105130.26296130.4643170.2818360.3299710.75863120.28702表表3Prin1Prin2Prin3x10.4766500.2959910.104190x20.4728080.2778940.162983x30.4238450.3779510.156255x4.2128930.451408.008544x5.3884600.3309450.321133x6.3524270.4027370.145144x70.214835.3774150.140459x80.0550340.272736.891162440.45986100.8251690.3528720.4982190.8956630.4094131.0564441.1836450.4676411.4752482.2441410.5380454.5284852.2624481.09921对于第一个主成分来说:
第8,10行业的得分较低,而第5行业的得分很高;对比原始指标可以看出,食品、缝纫工业的发展规模较小,而机械工业的发展规模较大;对于第二个主成分来说:
第3行业的得分较低,而第8,5行业的得分很高;对比原始数据可以看出,煤炭工业的能源消耗量较大,环保指数较低,而食品、机械的能源消耗量较小,环保指数较高;对于第三个主成分来说:
第13行业的得分较低,而第8行业的得分很高;对比原始数据可以看出,文教用品工业的能源利用效率较低,而食品工业的能源利用效率较高。
故对于故对于13个工业产业发展规模的排序为:
个工业产业发展规模的排序为:
5、1、3、2、4、6、13、11、9、7、12、10、8,相应的原始行业为:
机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
相应的原始行业为:
机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
上图为主成分2对主成分3的分布图,可以看到对于第4、11、6、2、3行业来说,能源消耗量越大,能源利用效益越低,而对于其他行业则两者之间没有显著关系。
5同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析:
原始指标可以分为两类:
与,分别反映生产规模和生产效益,而即能源消耗量和能源利用效益则与上述两组指标关系不大。
聚类分析信息表聚类分析信息表NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2Diste129820.00001.00.2628.0.020411111020.00011.00.2346.0.024710CL11730.00021.00.10884.40.0463913CL1040.0004.999.7152.90.0607812CL1230.0022.997.24763.30.14077CL9CL870.0105.987.73.518.30.20586CL7680.0146.972.48.66.50.333652320.0123.960.47.7.0.383644120.0166.943.49.7.0.44673CL6CL4100.1272.816.22.222.80.74022CL35110.1002.716.7060.1327.75.20.87431CL2CL5130.7157.000.0000.00.27.71.6501综合上表的综合上表的R2、半偏、半偏R2、伪、伪F、伪、伪t2统计量(统计量(RSQ、SPRSQ、PSF、PST2),可以看到,将原始的),可以看到,将原始的13个工业行业分为个工业行业分为2类或类或4类是比较合理的:
类是比较合理的:
分为两类的结果:
分为两类的结果:
电力、煤炭电力、煤炭,冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品;分为四类的结果:
分为四类的结果:
建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品,冶金、化学冶金、化学,机械机械,电力、煤炭电力、煤炭。
NameofObservationorCluster32514689127101113AverageDistanceBetweenClusters0.00.20.40.60.81.01.21.41.61.8682:
分析上海各乡的经济发展数据。
:
分析上海各乡的经济发展数据。
解:
执行解:
执行SAS程序代码:
程序代码:
datadxiti82;inputnumberx1-x2y1-y7;cards;184340009201038116615361692274327412942521512161280154919242717374341603895637918362287271532813240457254394884377097810101227155817552552262351002332975768471893114221827222267923039759765125312961902182222337930247655961661186389115391768875821276336617627698641241148298862721703836813914895127214311085916644274515075515818391107118082435772790839990771113213161284526615575996708551128163918611387722425494714806436641173153014787308810611021978110213012373245215943332256755763083698419942704168663507675678847118714762107241517924341254572982110171079187823251818065869126812271607176523182959315719102736056518359241125119421762411;procprincompdata=dxiti82out=oxiti82;varx1-x2y1-y7;run;procsortdata=oxiti82;byprin1;procprint;idnumber;varprin1;run;procsortdata=oxiti82;byprin2;procprint;idnumber;varprin2;run;procclusterdata=oxiti82method=avepseudocccouttree=tr82;varx1-x2y1-y7;idnumber;7proctreedata=tr82horizontalgraphics;run;结果分析:
结果分析:
我们使用原始数据的相关系数矩阵计算特征根矩阵。
通过观察这8个变量之间的两两相关系数矩阵两两相关系数矩阵(表5)表表5x1x2y1y2y3y4y5y6y7x110.54540.30190.21170.2660.22960.32740.28560.255x20.545410.87570.86040.88560.90240.92690.94440.9299y10.30190.875710.96720.9520.94370.90150.89940.8732y20.21170.86040.967210.97240.97270.87620.89870.8874y30.2660.88560.9520.972410.9860.9340.90010.8964y40.22960.90240.94370.97270.98610.93760.93460.9305y50.32740.92690.90150.87620.9340.937610.94330.93y60.28560.94440.89940.89870.90010.93460.943310.982y70.2550.92990.87320.88740.89640.93050.930.9821我们看到,这七组指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。
而与所有指标之间的相关系数均不大,由此可以得到初步的分析结论:
和应该作为两组互相较为独立的指标,并由此得知后面应该至少选取两个主成分进行分析。
根据分析家系统画出的碎石图和特征根的累积方差贡献率(表6)8表表6主成分主成分ProportionCumulative10.84150.841520.10940.950830.02830.979140.00990.98950.00650.995660.0020.997670.00110.998780.00080.999590.00051可以看到,取两个主成分的时候累积方差贡献率已高达95%,故提取两个主成分即可代表原始数据的大部分信息。
根据特征向量系数(表7),可以写出上述确定的两个主成分的表达式确定的两个主成分的表达式如下(均为标准化后的变量):
下面利用特征向量的值对选取的主成分进行解释:
下面利用特征向量的值对选取的主成分进行解释:
对第一个主成分来说,其对第一个主成分来说,其的特征向量系数均在的特征向量系数均在0.35左右,且均为正值,结合左右,且均为正值,结合指标所代表的实际含义,我们可以看出,第一个主成分反映出了该县每年的经济收入情况;指标所代表的实际含义,我们可以看出,第一个主成分反映出了该县每年的经济收入情况;对第二个主成分来说,只有对第二个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是指标所代表的实际含义是1986年乡人均收入,我们看出,第而个主成分主要反映了该县每年的人均经济收入情况。
年乡人均收入,我们看出,第而个主成分主要反映了该县每年的人均经济收入情况。
根据方差贡献率,可以对上述两个主成分进行加权求和,得到一个综合指标:
根据方差贡献率,可以对上述两个主成分进行加权求和,得到一个综合指标:
即:
即:
此综合指标反映了乡的经济发展水平。
此综合指标反映了乡的经济发展水平。
利用主成分得分对乡进行排序:
利用主成分得分对乡进行排序:
按第一主成分排序按第一主成分排序按第二主成分排序按第二主成分排序按经济发展水平综合指标综合排序按经济发展水平综合指标综合排序numberPrin1numberPrin2number综合指标排序综合指标排序10-3.30213-1.4347102.92269表表7Prin1Prin2x10.129110.93848x20.34840.23438y10.34831-0.0575y20.34783-0.1575y30.35302-0.1001y40.35615-0.1352y50.35048-0.005y60.35219-0.0467y70.34828-0.0755913-2.645414-0.7499132.330768-2.13156-0.645681.955387-1.87428-0.671.6367611-1.72991-0.498111.5825912-1.667711-0.4489121.492929-1.54574-0.367191.3757515-1.14222-0.3131150.9721817-0.898112-0.1479170.775425-0.702416-0.122450.5631916-0.38959-0.0679160.3587819-0.258810-0.0029190.169876-0.0281130.0905860.09911140.19564170.16866140.08690341.1252770.1904840.95364711.15718150.3362610.966834183.7075950.5081123.41158223.89558190.51448183.69403538.23444183.5897237.122489对于第一个主成分来说:
第10乡的得分较低,而第3行业的得分很高;对比上述对于主成分的解释可以看出,第10乡的总体经济收入较低,而第3乡的总体经济收入较高;对于第二个主成分来说:
第3乡的得分较低,而第18行业的得分很高;对比上述对于主成分的解释可以看出,第3乡的人均经济收入较低,而第18乡的人均经济收入较高;对于综合指标来说:
第10乡的得分较低,而第3行业的得分很高;对比上述对于主成分的解释可以看出,第10乡的经济发展综合水平较低,而第3乡的经济发展综合水平较高;故对于故对于19个乡的经济发展综合水平排序(由高到低)为:
个乡的经济发展综合水平排序(由高到低)为:
3、18、2、1、4、14、6、19、16、5、17、15、9、12、11、7、8、13、10。
10上图为主成分1对主成分2的分布图,可以看到乡的总体经济收入水平与乡的人均经济收入水平之间没有显著关系。
同时看到原始数据中,第3乡和第18乡的情况比较特殊,分别是总体经济收入特别高和人均经济收入特别高。
同时从第一主成分对第二主成分的增强型分量图中可以验证最初的想法:
原始指标可以分为两类:
与,分别反映乡的人均经济收入水平和乡的总体经济收入水平。
聚类分析信息表聚类分析信息表NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2Diste181420.0007.999.90.3.0.10821771220.0007.999.94.8.0.10951691120.0008.998.93.0.0.122215161920.0009.997.94.8.0.12431451720.0012.996.92.0.0.1444NameofObservationorCluster31821011913812761415191617541AverageDistanceBetweenClusters0.00.20.40.60.81.01.21.41.61.8111381320.0012.995.93.0.0.145812CL14CL1540.0022.993.84.22.10.168711CL13CL1640.0040.988.68.64.00.212810CL121550.0033.985.66.32.40.21659CL17CL1160.0059.979.59.03.50.23718CL101460.0058.974.57.83.10.2757CL8670.0087.965.54.83.30.3346CL91070.0128.952.51.55.10.39185CL18CL790.0239.928.45.27.40.4116421820.0166.911.51.5.0.54633CL5CL6160.1585.753.868-2.324.430.90.66442CL4330.0806.672.732-.9134.94.91.07811CL3CL2190.6724.000.0000.00.34.91.6783综合上表的综合上表的R2、半偏、半偏R2、伪、伪F、伪、伪t2统计量(统计量(RSQ、SPRSQ、PSF、PST2),可以看到,将原始的),可以看到,将原始的19个乡分为个乡分为4类是比较合理的:
类是比较合理的:
分为四类的结果:
分为四类的结果:
1、4、5、17、16、19、15、14、6,7、12、8、13、9、11、10,2、18,3。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北师大 应用 多元 统计分析 业主 成分 分析