欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx

    • 资源ID:9648693       资源大小:22.46KB        全文页数:8页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx

    1、多元统计分析 期末试题 聚类分析 主成分分析 因子分析多元统计分析( 期末试题) 聚类分析 主成分分析 因子分析2011-2012学年第一学期多元统计分析上机考试试卷 班级:金融工程2009级 学号: 2009310283姓名:田睿电脑序号: 考试说明: 1、 打开本试卷的WORD文件后,首先将本WORD文档“另存”,将文件名设为你的“学号+姓名”,并在本试卷中再次填好班级、姓名、学号、电脑序号,再根据题目要求将必要的结果复制到件中并进行必要的分析。考试结束时,提交该WORD文档,请不要提交SPSS的结果文件。 2、 考试时间120分钟,16:0018:00。考试结束后,将本试卷上传至ftp:

    2、/的“多元统计期末考试提交”子目录。注意,请务必到教师工作台向监考教师确认你的试卷已经上传成功后,再离开教室。 上机操作题: 1、 为了从1张心电图的5项不同指标中找出区分健康人、硬化症患者和冠心病患者这3类人的方法,对3类人分别取容量为n1=11、n2=7、n3=5的3个样本,原始数据见表1。 请对此案例进行判别分析,并回答以下问题: 简述Fisher判别分析的基本原理。 本题中,请分析三组人群在各项指标的取值上是否有显著差异。 请写出贝叶斯判别函数的表达式。 请写出未标准化的Fisher判别函数的表达式。 分析三组人群被错判的情况。 画出表示三组人群的两个Fisher判别式得分的散点图,用

    3、不同颜色的符号区别表示不同的人群。 新测得某人的5项指标值为,请给出其贝叶斯判别的后验概率值,以及Fisher判别函数的得分值,则他属于哪类? 贝叶斯判别方法的判别准则并不唯一,请说明在SPSS软件中,所输出的Bayes判别函数的结果是在怎样的假设条件以及准则下计算得到的。 答: 1. Fisher判别分析的基本原理是:通过投影,用 p 维变量的少数几个线性组合,来代替原始的 p 维变量,以达到降维的目的,再根据样品在这些判别函数上的取值,对样品的归属做出判别。 2. SPSS输出表格: 组均值的均等性的检验 X1 X2 X3 X4 X5 Wilks 的 Lambda .853 .598 .7

    4、73 .751 .701 F df1 2 2 2 2 2 df2 20 20 20 20 20 Sig. .203 .006 .076 .057 .029 看各个总体在均值等指标上除了x1均小于,说明x2到x5之间有显著的差异,而x1的检验值大于,拒绝原假设,说明其总体之间指标差异不大 3. SPSS输出表格 分类函数系数 X1 X2 X3 X4 X5 (常量) 1 -.463 .091 - group 2 -.401 .121 - 3 -.434 .365 - Fisher 的线性判别式函数 通过上表写出Bayes判别函数分别为: F1=-+ F2=-+ F3=-+ 4.SPSS输出表格:

    5、典型判别式函数系数 X1 X2 X3 X4 X5 (常量) 1 函数 2 .110 .016 -.137 .329 -.456 - .299 -.024 -.060 .710 - 非标准化系数 F1=-+ F2=-+ 5. SPSS输出表格 分类结果 a 初始 计数 group 1 2 3 % 1 2 3 1 预测组成员 2 11 0 1 .0 0 6 0 .0 .0 3 0 1 4 .0 合计 11 7 5a. 已对初始分组案例中的 % 个进行了正确分类。 上图可知,第一组成员全部判断正确;第二组错判为第一组的概率是%;第三组错判成第一组的概率是20% 6. SPSS输出表格7. 某人的5项

    6、指标值为 将各样品的自变量值代入上述三个Bayes判别函数: F1=-+ F2=-+ F3=-+ 得到:F1=F2=F3= 两个Fisher判别函数分别为: F1=-+ F2=-+ F1= F2= 8.距离判别法虽然简单、便于使用,但是该方法也有它明显的不足之处。 一,把总体等同看待,没有考虑到各总体会以不同的概率出现,也即判别方法与总体各自出现的概率的大小无关。 第二,判别方法与错判之后所造成的损失无关,没有考虑误判之后所造成的损失的差异 因此,我们对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后

    7、验概率分布来进行,将贝叶斯思想用于判别分析,就得到贝叶斯判别。 2、 根据1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据,见表2,变量如下: x1:食品 x2:衣着 x5:交通和通讯 x6:娱乐教育文化服务 x7:居住 x8:杂项商品和服务 x3:家庭设备用品及服务 x4:医疗保健 请说明聚类分析和判别分析的根本区别。 本题中,分别采用系统聚类方法的最短距离法、重心法和离差平方和法对各地区作聚类分析,给出谱系图。 通过比较不同的方法,你认为哪种方法的结果更好。 根据你的选择,在相应的系统聚类谱系图上表示出划分为三类的结果。 对各类的特征进行解释。

    8、再采用K均值聚类方法,给出分成三类的结果,以及各类的类重心值。 答: 1.判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。 判别分析方法假定组已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。 聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。 2. 最短距离法、重心法和离差平方和法作谱系图 最短距离法下的谱系图 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * *

    9、 * * * * * * * * * * * Dendrogram using Complete Linkage Rescaled Distance Cluster Combine C A S E0 510152025 Label Num +-+-+-+-+-+ 山西 4 -+ 甘肃28 -+ 内蒙古5 -+ 辽宁 6 -+ 黑龙江8 -+-+ 吉林 7 -+ | 青海29 -+ +-+ 宁夏30 -+ | | 河南16 -+-+ | 陕西27 -+-+ 江苏10 -+-+ | | 云南25 -+ | | | 重庆22 -+ | | 湖北17 -+ +-+ | 四川23 -+-+| 湖南18

    10、-+ |+-+ 河北 3 -+ | 新疆31 -+-+| 山东15 -+ | 安徽12 -+-+| 贵州24 -+ +-+|+-+ 江西14 -+ +-+| 福建13 -+-+ | 广西20 -+ | | 海南21 -+ | 西藏26 -+| 天津 2 -+-+| 浙江11 -+ +-+| 北京 1 -+-+ +-+ 上海 9 -+| 广东19 -+ 重心法下的谱系图 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * *

    11、* * * * * * * * Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E0 510152025 Label Num +-+-+-+-+-+ 山西 4 -+ 甘肃28 -+ 内蒙古5 -+ 辽宁 6 -+ 黑龙江8 -+ 吉林 7 -+ 青海29 -+-+ 宁夏30 -+ | 河北 3 -+ | 新疆31 -+ | 河南16 -+ 安徽12 -+ 贵州24 -+ 陕西27 -+-+ 湖北17 -+ | | 四川23 -+-+ | 湖南18 -+ +-+ 江苏10 -+ | 云南25 -+

    12、+-+ 重庆22 -+ | | 山东15 -+ | +-+ 福建13 -+-+ | | 广西20 -+| +-+ 江西14 -+ |+-+ 海南21 -+| 西藏26 -+| 天津 2 -+-+| 浙江11 -+-+ | 北京 1 -+-+ 上海 9 -+| 广东19 -+ 离差平方和法下的谱系图 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using War

    13、d Method Rescaled Distance Cluster Combine C A S E0 510152025 Label Num +-+-+-+-+-+ 山西 4 -+ 甘肃28 -+ 内蒙古5 -+-+ 青海29 -+ | 宁夏30 -+ | 辽宁 6 -+ | 黑龙江8 -+ +-+ 吉林 7 -+ | 安徽12 -+ | 贵州24 -+ | 河南16 -+-+| 陕西27 -+| 江西14 -+| 福建13 -+-+ 广西20 -+-+ | 海南21 -+ | | 湖北17 -+ | | 四川23 -+ +-+ | 湖南18 -+-+ | | | 河北 3 -+ | | |

    14、 | 新疆31 -+ | | | | 山东15 -+ +-+ +-+| 江苏10 -+ | | | 云南25 -+ | | | 重庆22 -+-+ | | 天津 2 -+| | 西藏26 -+ | 北京 1 -+-+ | 浙江11 -+ +-+ | 上海 9 -+ +-+ 广东19 -+ 3离差平方和的方法较好 4 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram

    15、using Ward Method Rescaled Distance Cluster Combine C A S E0 510152025 Label Num +-+-+-+-+-+ 山西 4 -+ 甘肃28 -+ 内蒙古5 -+-+ 青海29 -+ | 宁夏30 -+ | 辽宁 6 -+ | 黑龙江8 -+ +-+ 吉林 7 -+ | 安徽12 -+ | 贵州24 -+ | 河南16 -+-+| 陕西27 -+| 江西14 -+| 福建13 -+-+ 广西20 -+-+ | 海南21 -+ | | 湖北17 -+ | | 四川23 -+ +-+ | 湖南18 -+-+ | | | 河北 3

    16、 -+ | | | | 新疆31 -+ | | | | 山东15 -+ +-+ +-+| 江苏10 -+ | | | 云南25 -+ | | | 重庆22 -+-+ | | 天津 2 -+| | 西藏26 -+ | 北京 1 -+-+ | 浙江11 -+ +-+ | 上海 9 -+ +-+ 广东19 -+ 第一类为西藏、海南、广西、福建、湖南、四川、湖北、山东、新疆、河北、重庆、天津、云南、江苏 第二类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、山西、甘肃 第三类为广东、上海、浙江、北京 5.根据上面的分类,可以看出: 第一类为经济和居民生活欠发达的地区 第二类为经济和居

    17、民生活较为发达的地区 第三类为经济和居民生活的发达地区 6,根据SPSS 聚类成员 案例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 聚类 1 2 3 3 3 3 3 3 1 2 2 3 2 3 3 3 3 3 1 3 3 距离22 23 24 25 26 27 28 29 30 31 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 2 3 3 2 2 3 3 3 3 3根据上面两个

    18、表格可知: K均值聚类分成的三类: 第一类为北京、上海、广东 第二类为天津、江苏、浙江、福建、重庆、云南、西藏 第三类为江西、陕西、河南、贵州、安徽、宁夏、吉林、黑龙江、辽宁、内蒙古、山西、甘肃、河北、江西、山东、湖南、湖北、四川、广西、海南、宁夏、云南、贵州、青海 7. 最终聚类中心 食品 衣着 家庭设备用品及服务 医疗保健 交通和通讯 娱乐教育文化服务 居住 杂项商品和服务 1 聚类 2 3 3、 收集了某市工业部门13个行业的6项经济指标如下所列,原始数据见表3。 X1:年末固定资产净值,单位:万元; X2:职工人数,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位

    19、:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; 请对此案例进行因子分析,并回答以下问题: 请简要说明因子分析的目的。在什么情况下因子分析将失效? 本题中,按照特征值大于1的标准,应提取几个因子?所提取的因子对原数据表的解释精度达到多少? 给出各变量的共同度。在因子分析中,共同度是用来反应什么的指标? 分别给出因子旋转前和旋转后的因子载荷矩阵。在因子分析中进行因子旋转的目的是什么? 分别写出旋转后的因子分析模型表达式和计算因子得分的表达式。 根据所得到的因子分析模型解释各因子的含义。 对13个行业进行综合评价,给出综合排名的结果。 答: 1. 因子分析(f

    20、actor analysis)和主成分分析的目的是一样的,即:将具有相关关系的多个变量综合为数量较少的几个因子,从而实现数据降维。 2. 解释的总方差 初始特征值 成份 1 2 3 4 合计 .437 .109 方差的 %累积 %合计 提取平方和载入 方差的 % 累积 % 合计 旋转平方和载入 方差的 % 累积 %5 6 .035 .004 .586 .058提取方法:主成份分析。 图可知可提取两个因子,精度达到 3.因子方差 初始提取年末固定资产净值职工人数工业总产值全员劳动生产率百元固定资产原值实现产值资金利税率提取方法:主成份分析。共同度描述了全部公共因子对变量的总方差所做的贡献,反映了

    21、公共因子对该变量的影响程度。也反映了变量对全部公共因子的共同依赖程度。 4. 成份矩阵 a 年末固定资产净值 职工人数 工业总产值 全员劳动生产率 百元固定资产原值实现产值 资金利税率 提取方法 :主成分分析法。 a. 已提取了 2 个成份。 1 成份 2 .275 .238 .445 .871 .742 .868 .947 .937 .894 -.171 -.492 -.422 成份矩阵a 成份 12年末固定资产净值.职工人数.工业总产值.全员劳动生产率-.百元固定资产原值实现产值-.资金利税率-.提取方法:主成分分析法。a.已提取了2个成份。 旋转后的矩阵: 旋转成份矩阵a 成份 12年末

    22、固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率-.提取方法:主成分分析法。 旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。 旋转的目的是:当有些公共因子对多个变量都有较明显的影响作用。这时因子模型不利于突出主要矛盾和矛盾的主要方面,也很难对因子的实际背景进行合理的解释。这时通过因子旋转可以使它仅在一个公共因子上载荷较大,其余的载荷较小,有利于突出每个公共因子和其载荷较大的变量的联系,显示公共因子的主要性质。 5 .旋 旋转成份矩阵 a 年末固定资产净值 职工人数 工业总产值 全员劳动生产率 百元固定资产原值实现产值 资金利税率

    23、 提取方法 :主成分分析法。 1 成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .994 .156 -.190 -.080 旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 3 次迭代后收敛。 转后的因子分析模型表达式和计算因子得分的表达式。X1=+=+=-+=-+ 成份得分系数矩阵 年末固定资产净值 职工人数 工业总产值 全员劳动生产率 百元固定资产原值实现产值 1 成份 2 -.006 -.019 .066 .360 .348 .334 .325 .343 .079 -.040 资金利税率 提取方法 :主成分分析法。 .001

    24、 .389 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。 成份得分系数矩阵 成份 12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率.提取方法:主成分分析法。 旋转法:具有Kaiser标准化的正交旋转法。 构成得分。 计算因子得分的表达式:F1=+=-+ 6 旋转成份矩阵 a 年末固定资产净值 职工人数 工业总产值 全员劳动生产率 百元固定资产原值实现产值 资金利税率 提取方法 :主成分分析法。 1 成份 2 -.086 -.117 .091 .874 .870 .962 .982 .960 .994 .156 -.190 -.

    25、080 旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 3 次迭代后收敛。 .旋转成份矩阵a 成份 12年末固定资产净值.职工人数.工业总产值.全员劳动生产率.百元固定资产原值实现产值-.资金利税率-.提取方法:主成分分析法。 旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。 显然,F1和年末固定资产净值、职工人数、工业总产值相关性较高,因此可解释为生产规模指标,决定工厂的生产规模F2和全员劳动生产率、百元固定资产原值实现产值、资金利税率相关性较高,因此可解释为生产效率指标,决定生产效率。 7. 加权平均综合得分=/积累贡献 - - - - - - -

    26、通过excel计算十三个行业的得分如上,所以排名如下: 机器 食品 化学 纺织 缝纫 冶金 造纸 森工 文教 皮革 建材 电力 煤炭 4、 对35个管理类期刊进行分类评估,选取了如下4项指标,原始数据见表4。 X1:被引次数 X2:载文量 X3:引证期刊 X4:标注“国家自然科学基金项目” 下面采用因子分析和聚类分析相结合的方法对35个期刊进行分类评估。 首先,采用因子分析方法,按照特征值大于1的标准,对数据表进行降维处理。给出旋转后的因子载荷矩阵和因子载荷图,并解释因子的含义。 第二步,计算因子得分,根据35个期刊的因子得分值对它们进行K均值聚类,给出聚类结果。 第三步,画出表示各类期刊的两

    27、个因子得分的散点图,用不同颜色的符号区别表示不同的类。根据散点图上各类期刊的散布位置以及对因子含义的理解,分析各类期刊的差异特征。 1. 旋转成份矩阵 a 被引次数 载文量 引证期刊 标注基金 1 成份 2 .063 .953 -.147 .316 .782 -.017 .827 .477 提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 3 次迭代后收敛。 因子1和被引次数、引证期刊、标注基金相关性较高,因为期刊质量好,高级期刊基金引用,所以因子1可以被解释为内容质量 因子2 和载文量相关性较高,可以被解释为内容数量的大小 2.用聚类分析 聚类成员 案例号 1 2 3 期刊


    注意事项

    本文(多元统计分析 期末试题 聚类分析 主成分分析 因子分析.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开