欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    应用多元统计分析习题解答聚类分析.docx

    • 资源ID:15940101       资源大小:79.58KB        全文页数:56页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用多元统计分析习题解答聚类分析.docx

    1、应用多元统计分析习题解答聚类分析第五章 聚类剖析5.1 鉴别剖析和聚类剖析有何差别?答:即依据必定的鉴别准则,判断一个样本归属于哪一类。详细而言,设有 n 个样本,对每个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个类型(或整体)中的某一类,经过找出一个最优的区分,使得不一样类其余样本尽可能地域别开,并鉴别该样本属于哪个整体。聚类剖析是剖析怎样对样品(或变量)进行量化分类的问题。在聚类以前,我们其实不知道整体,而是经过一次次的聚类,使邻近的样品(或变量)聚合形成整体。平常来讲,鉴别剖析是在已知有多少类及是什么类的状况下进行分类,而聚类剖析是在不知道类的状况下进行分类。5.2 试述

    2、系统聚类的基本思想。答:系统聚类的基本思想是:距离邻近的样品(或变量)先聚成类,距离相远的后聚成类,过程向来进行下去,每个样品(或变量)总能聚到适合的类中。5.3 对样品和变量进行聚类剖析时, 所结构的统计量分别是什么?简要说明为何这样结构?答:对样品进行聚类剖析时,用距离来测定样品之间的相像程度。由于我们把n 个样本看作 p 维空间的 n 个点。点之间的距离即可代表样品间的相像度。常用的距离为pq )1/ q(一)闵可夫斯基距离: dij (q) (Xik X jkk1q取不一样值,分为(1)绝对距离(2)欧氏距离(q 1)q 2 )(3)切比雪夫距离( q)(二)马氏距离(三)兰氏距离对变

    3、量的相像性, 我们更多地要认识变量的变化趋向或变化方向, 所以用有关性进行权衡。将变量看作 p 维空间的向量,一般用(一)夹角余弦(二)有关系数5.4 在进行系统聚类时,不一样类间距离计算方法有何差别?选择距离公式应按照哪些原则?答: 设 dij 表示样品 Xi 与 Xj 之间距离,用 Dij 表示类 Gi 与 Gj 之间的距离。(1) . 最短距离法(2)最长距离法(3)中间距离法D kr2 1 D kp21 D kq2D pq222此中(4)重心法(5)类均匀法(6)可变类均匀法Dkr2(1 )( np Dkp2nq Dkq2 )Dpq2nr? 1nr此中 ?是可变的且( 7)可变法Dkr

    4、2 1(Dkp2Dkq2 )Dpq2此中 ?是可变的且 ? 12(8)离差平方和法往常选择距离公式应注意按照以下的基根源则:(1)要考虑所选择的距离公式在实质应用中有明确的意义。 如欧氏距离就有特别明确的空间距离观点。马氏距离有除去量纲影响的作用。(2)要综合考虑对样本观察数据的预办理和将要采纳的聚类剖析方法。 如在进行聚类剖析以前已经对变量作了标准化办理,则往常便可采纳欧氏距离。(3)要考虑研究对象的特色和计算量的大小。 样品间距离公式的选择是一个比较复杂且带有必定主观性的问题,我们应依据研究对象的特色不一样做出详细分折。实质中,聚类剖析前不如尝试性地多项选择择几个距离公式分别进行聚类, 而

    5、后对聚类剖析的结果进行对照剖析,以确立最适合的距离测度方法。5.5 试述 K 均值法与系统聚类法的异同。答:同样: K均值法和系统聚类法同样,都是以距离的远近亲疏为标准进行聚类的。不一样:系统聚类对不一样的类数产生一系列的聚类结果,而 K均值法只好产生指定类数的聚类结果。详细类数确实定,离不开实践经验的累积;有时也能够借助系统聚类法以一部分样品为对象进行聚类,其结果作为 K均值法确立类数的参照。5.6 试述 K 均值法与系统聚类有何差别?试述有序聚类法的基本思想。答: K 均值法的基本思想是将每一个样品分派给近来中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而 K均值法只好产生

    6、指定类数的聚类结果。详细类数确实定,有时也能够借助系统聚类法以一部分样品为对象进行聚类,其结果作为 K 均值法确立类数的参照。有序聚类就是解决样品的序次不可以改动时的聚类剖析问题。假如用X (1) , X ( 2) , X (n) 表示 n个有序的样品,则每一类一定是这样的形式,即 X (i ) , X (i 1) , X ( j ) ,此中 1 in, 且 j n ,简记为 Gi i,i 1, , j 。在同一类中的样品是序次相邻的。一般的步骤是(1)计算直径D(i,j ) 。(2)计算最小分类损失函数 Lp(l,k)。 (3)确立分类个数 k 。( 4)最优分类。5.7 检测某类产品的重量

    7、, 抽了六个样品, 每个样品只测了一个指标,分别为 1,2,3,6,9,11. 试用最短距离法,重心法进行聚类剖析。( 1)用最短距离法进行聚类剖析。采纳绝对值距离,计算样品间距离阵01021 05 4 3 08 7 6 3 010 9 8 5 2 0由上表易知 中最小元素是 于是将 , , 聚为一类,记为计算距离阵0306308520中最小元素是 =2 于是将 , 聚为一类,记为计算样本距离阵03 06 3 0中最小元素是 于是将 ,聚为一类,记为所以,(2)用重心法进行聚类剖析计算样品间平方距离阵01 04 1 025 16 9 064 49 36 9 0100 81 64 25 4 0易

    8、知 中最小元素是 于是将 , , 聚为一类,记为计算距离阵016 049 9 081 25 4 0注:计算方法 , 其余以此类推。中最小元素是 =4 于是将 , 聚为一类,记为计算样本距离阵016 064 16 0中最小元素是 于是将 ,聚为一类,记为所以,5.8 下表是 15 个上市企业 2001 年的一些主要财务指标,使用系统聚类法和 K均值法分别对这些企业进行聚类,并对结果进行比较剖析。企业净财产每股总资财产负流动每股净利润增总财产净利产周欠债净资利润率债率长率增加率编号润转率比率产111.090.210.0596.9870.531.86-44.0481.99211.960.590.74

    9、51.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.54

    10、43.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.7713 95.79 -5.2 0.5 252.34 99.34 -5.42 -9816.52 -46.8214 16.55 0.35 0.93 72.31 84.05 2.14 115.95 123.4115 -24.18 -1.16 0.79 56.26 97.8 4.81 -533.89 -27.74解 : 令净财产利润率为 X1,每股净利润 X2,总财产周转率为 X3,财产欠债率为 X4,流动欠债

    11、比率为 X5,每股净财产为 X6,净利润增加率为 X7,总财产增加率为 X8,用 spss 对企业聚类剖析的步骤以下:a)系统聚类法 :1. 在 SPSS窗口中选择 Analyze Classify Hierachical Cluster ,调出系统聚类分析主界面,并将变量 X1 - X8 移入 Variables 框中。在 Cluster 栏中选择 Cases 单选按钮,即对样品进行聚类 (若选择 Variables ,则对变量进行聚类) 。在 Display栏中选择 Statistics 和 Plots 复选框,这样在结果输出窗口中能够同时获得聚类结果统计量和统计图。图 5.1 系统剖析法

    12、主界面2.点击 Statistics按钮,设置在结果输出窗口中给出的聚类剖析统计量。我们选择Agglomeration schedule 与 Cluster Membership 中的 Range of solution 2-4 ,如图 5.2 所示,点击 Continue 按钮,返回主界面。(此中, Agglomeration schedule 表示在结果中给出聚类过程表,显示系统聚类的详尽步骤; Proximity matrix 表示输出各个体之间的距离矩阵; ClusterMembership 表示在结果中输出一个表, 表中显示每个个体被分派到的类型, Rangeof solution

    13、2-4 马上全部个体分为 2 至 4 类。)3. 点击 Plots 按钮,设置结果输出窗口中给出的聚类剖析统计图。选中 Dendrogram复选框和 Icicle 栏中的 None单项选择按钮,如图 5.3 ,即只给出聚类树形图,而不给出冰柱图。单击 Continue 按钮,返回主界面。图 5.2 Statistics 子对话框 图 5.3 Plots 子对话框4.点击 Method 按钮,设置系统聚类的方法选项。聚类的方法,这里选择 Between-group inkage栏用于选择对距离和相像性的测度方法,选择氏距离);单击 Continue 按钮,返回主界面。Cluster Method

    14、 下拉列表用于指定(组间均匀数连结距离); MeasureSquared Euclidean distance (欧图 5.4 Method 子对话框 图 5.5 Save 子对话框5.点击 Save 按钮,指定保留在数据文件中的用于表示聚类结果的新变量。 None表示不保留任何新变量; Single solution 表示生成一个分类变量,在后来的矩形框中输入要分红的类数; Range of solutions 表示生成多个分类变量。这里我们选择Range of solutions ,并在后边的两个矩形框中分别输入 2 和 4,即生成三个新的分类变量,分别表示将样品分为 2 类、 3 类和

    15、4 类时的聚类结果 , 如图 5.5 。点击Continue ,返回主界面。6.点击 OK按钮,运转系统聚类过程。聚类结果剖析 :下边的群集成员表给出了把企业分为 2类,3类, 4类时各个样本所属类其余状况,此外,从右侧的树形图也能够直观地看到, 若将 15个企业分为 2类,则13单独为一类,其余的为一类;若分为 3类,则企业 8分别出来,自成一类。以此类推。表 5.1 各种品所属类型表图 5.6 聚类树形图b)K 均值法的步骤以下:1.在 SPSS窗口中选择 Analyze Classify K-Means Cluster ,调出 K 均值聚类剖析主界面,并将变量 X1-X8 移入 Vari

    16、ables 框中。在 Method 框中选择 Iterateclassify ,即便用 K-means算法不停计算新的类中心,并替代旧的类中心(若选择 Classify only ,则依据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster 后边的矩形框中输入想要把样品聚成的类数,这里我们输入 3,马上 15 个企业分为 3 类。(Centers 按钮,则用于设置迭代的初始类中心。假如不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)图 5.7 K 均值聚类剖析主界面1.点击 Iterate 按钮,对迭代参数进行设置。 Maximum Iteratio

    17、ns 参数框用于设定K-means算法迭代的最大次数,输入 10,Convergence Criterion 参数框用于设定算法的收敛判据,输入 0,只需在迭代的过程中先知足了此中的参数,则迭代过程就停止。单击 Continue ,返回主界面。图 5.8 Iterate 子对话框3.点击 Save 按钮,设置保留在数据文件中的表示聚类结果的新变量。我们将两个复选框都选中,此中 Cluster membership 选项用于成立一个代表聚类结果的变量,默认变量名为 qcl_1 ; Distance from cluster center 选项成立一个新变量,代表各观察量与其所属类中心的欧氏距离。

    18、单击 Continue 按钮返回。图 5.9 Save 子对话框4. 点击 Options 按钮,指定要计算的统计量。选中 Initial cluster centers 和Cluster information for each case 复选框。这样,在输出窗口中将给出聚类的初始类中心和每个企业的分类信息, 包含分派到哪一类和该企业距所属类中心的距离。单击 Continue 返回。图 5.10 Options 子对话框5.点击 OK按钮,运转 K 均值聚类剖析程序。聚类结果剖析 :以下三表给出了各企业所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各种的企业数。由以上表格可

    19、得企业 13 与企业 8 各自成一类,其余的企业为一类。经过比较可知,两种聚类方法获得的聚类结果完整一致。5.9 下表是某年我国 16 个地域农民支出状况的抽样检查数据,每个地域检查了反应每人平均生活花费支出状况的六个经济指标。试经过统计剖析软件用不一样的方法进行系统聚类分析,并比较何种方法与人们察看到的实质状况较靠近。交通和娱乐教地域食品穿着燃料住宅通信育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25

    20、内蒙128.4127.638.9412.5823.992.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙116.2229.5713.2413.7621.756.04江上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6

    21、419.1915.974.94山东115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解 : 令食品支出为 X1,穿着支出为 X2,燃料支出为 X3,住宅支出为 X4,交通和通信支出为X5,娱乐教育文化支出为 X6,用 spss 对 16 各地域聚类剖析的步骤如 5.8 题,不一样的方法在第 4 个步骤的 Method 子对话框中选择不一样的 Cluster method 。1.Between-group inkage (组间均匀数连结距离)上表给出了把全国 16 个地域分为 2 类、 3 类和 4 类时,各地域所属的类型,此外从右侧

    22、的树形图也能够直观地察看到,若用组间均匀数连结距离将这些地域分为 3 类,则 9(上海)单独为一类, 1(北京)和 11(浙江)为一类,节余地域为一类。2. Within-group linkage (组内均匀连结距离)若用组内均匀数连结距离将这些地域分为 3 类,则 9(上海)单独为一类, 1(北京)单独为一类,节余地域为一类。3. Nearest neighbor (最短距离法)若用最短距离法将这些地域分为 3 类,则 9(上海)单独为一类, 1(北京)单独为一类,节余地域为一类。4.Furthest neighbor (最远距离法)若用最远距离法将这些地域分为 3 类,则 9(上海)单独

    23、为一类, 1(北京)和 11(浙江)为一类,节余地域为一类。5. Centroid cluster (重心法)若用重心法将这些地域分为 3 类,则 9(上海)单独为一类, 1(北京)和 11(浙江)为一类,节余地域为一类。6.Median cluster (中位数距离)若用中位数距离法将这些地域分为 3 类,则 9(上海)单独为一类, 1(北京)和 11(浙江)为一类,节余地域为一类。7.Ward method(离差平方和)若用离差平方和法将这些地域分为 3 类,则 9(上海),1(北京)和 11(浙江)为一类, 2(天津)、6(辽宁)、 7(吉林)、10(江苏)、 12(安徽)、13(福建)

    24、和 14(江西)为一类,节余地域为一类。5.10 依据上题数据经过 SPSS统计剖析软件进行迅速聚类运算,并与系统聚类剖析结果进行比较。解:迅速聚类运算即 K 均值法聚类,详细步骤同 5.8 ,聚类结果以下:聚类的结果为 9(上海)单独为一类, 1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、 11(浙江)、 13(福建)和 14(江西)为一类,节余地域为一类。5.11 下表是 2003 年我国省会城市和计划单列市的主要经济指标:人均 GDPx1 (元)、人均工业产值 x2 (元)、客运总量 x3(万人)、货运总量 x4 (万吨)、地方财政估算内收入 x5(亿元)、固定财产投资总

    25、数 x6 (亿元)、在岗员工占总人口的比率 x7 ()、在岗员工人均薪资额 x8 (元)、城乡居民年末积蓄余额 x9 (亿元)。试经过统计剖析软件进行系统聚类分析,并比较何种方法与人们察看到的实质状况较靠近。城市305230675920037.2531644北京31886 33168130821034672018.1864182天津26433 43732 350759348598118410001230104石家庄15134131598494169.543615752158312975152419722.1267太原33866089呼和浩13.1411189911125735084155211825255特6146314.1496142沈阳23268 15446 661281 5571368110021081114.1756131大连29145 2761511407001718630210456999108929412.1387长春4658312014825


    注意事项

    本文(应用多元统计分析习题解答聚类分析.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开