潜在类别模型及数据模拟分析Word格式.docx

资源ID：5880887 资源大小：21.90KB 全文页数：9页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

潜在类别模型及数据模拟分析Word格式.docx

1、潜在类别模型综合了结构方程模型与对数线性模型的思想，形成了自身的优势，其目的在于以最少的潜在类别数目来解释显变量之间的关联，来达到局部独立性。潜在类别模型的提出弥补了结构方程模型仅能处理连续潜变量的不足，尤其重要的是分类潜变量的引入提高了分类变量的分析价值，使得研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素。1 潜在类别模型的基本原理潜在类别模型又称潜类模型（latent class model，LCM），是建立在概率分布原理与对数线性模型基础之上，引入因子分析与结构方程模型的思想而形成的。因此，掌握结构方程模型与对数线性模型有助于理解潜在类别模型。潜在类别模型分析过程包括模型参数

2、化、参数估计、模型识别、拟合优度评价、潜在分类与结果解释等14。1.1 概率参数化LCM的概率参数化（probabilistic parameterization）包括两种类型的分类变量：观察变量或显变量（observed variable, manifest variable）和非观察变量或潜变量（latent variable）；两种类型的参数：潜在类别概率（latent class probabilities）和条件概率（conditional probabilities）。LCM假定任意两个观测变量之间的关系可以由潜变量解释。现假定A 、B 、C 、D 为四个显变量（或条目），潜在类别

4、| Xkt= lD| Xlt=1.01.2 模型估计与模型识别提出假定模型后，接下来的重要工作就是求出模型中参数的终解（final solution）和参数估计时的识别问题。在潜在类别模型中常用的参数估计方法有EM（expectation maximization）算法和NR（Newton Raphson）算法。如果模型中的参数要顺利求出一组最佳解，那么参数数目必须小于自由度。如果自由度小于0，将造成模型不能识别的问题，无法运用EM算法与NR算法进行迭代求解。相反自由度大于0也不一定能让模型具有可识别性。Goodman（1974）提出了一个局部识别（local identifiability）

5、原则，利用偏导矩阵（partial derivative matrix）来判断模型是否可以得到有意义的解。遇到模型无法识别的情况，可以限定部分参数，减少待估参数数目，提高模型估计的识别性。1.3 模型评价与潜在分类模型评价的主要工作就是找出既简洁，具有最少的参数，又具有较好拟合优度的模型，其中4种指标Pearson2 、似然比2 、Akaike信息准则（AIC）、Baysian信息准则（BIC）已经得到广泛使用。在确定模型后，最后要将各组观察值分类到适当的潜在类别当中，来说明观察值的后验类别属性（posterior membership），即潜在聚类分析（latent class cluste

6、r analysis）。Kaufman和Rousseeuw（1990）将传统的聚类分析定义为把相似的目标分到相同的组别，而组别的数量和形态是未知的2，而潜在聚类分析则是在一定的概率模型之下（model based），利用概率估计与比较来进行分类，分类的原理依据贝叶斯理论。ABCDtijkl=ABCDXijklt Tt=1ABCD Xijklt（2）利用式（2）求出值潜变量X 的条件概率ABCDtijkl 后，根据ABCDtijkl 值的大小判断观察值属于哪一类。如果潜在类别t 在某一类的概率最大则相应的个体归为该类。1.4 探索性与验证性潜在类别分析依据研究目的，潜在类别模型可以分为探索性潜在

7、类别模型与验证性潜在类别模型两种类型。邱皓政3对探索性潜在类别模型分析过程进行了总结，有以下几步：1.估计初始模型（ T=1的1 cluster模型）;2.逐步增加类别数目，进行各模型的参数估计，计算拟合优度值;3.进行拟合优度检验与差异检验，以决定最佳模型;4.进行类别的命名与参数估计结果整理;5.进行分类，决定各观察值的归属类别；而验证性潜在类别分析步骤也为以下几步：1.估计未限定模型（可以是探索性分析的最佳模型或次佳模型）；2.增加限定的参数，并进行模型的参数估计，计算拟合优度；3.进行拟合优度检验与卡方差异检验，以决定模型拟合优度有无变化；4.如果拟合变得不好，放弃该模型，以未限定模型

8、作为最适当模型，或继续进行其他模型的估计；5.如果拟合变得很好，则保留该限定，重新进行各潜在类别的命名与参数估计的说明；6.进行分类，了解各观察值的分类情形。1.5 多样本潜在类别模型在潜在类别分析中，研究人员经常面对来自两个或多个不同组别的观察对象进行潜在类别分析的情形。在遇到这种情况时，可以利用多样本（multi sample）潜在类别模型分析比较样本之间的潜结构。多样本潜在类别模型分析（multi sample latent class modeling，MS LCM）是对两组或两组以上观察对象在同一组显变量的反应同时进行分析，比较不同的样本下的潜在类别模型结果是否有所差异，因此又称为联

10、模拟分析步骤利用Mplus软件蒙特卡罗模拟（Monte Carlo simulation study）产生潜在类别模型的模拟数据，然后利用Mplus软件对产生的模拟数据进行单样本与多样本潜在类别分析5。2.1.1 模型指定与变量产生条件首先构造两个包含一个潜变量和四个显变量的潜在类别模型M1与M2，其中显变量和潜变量都为二分类变量，假定0表示不发生（否），1表示发生（是）。对于潜在类别模型M1，在潜在类别1（cluster 1）中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、-0.5、-0.5；在潜在类别2（cluster 2）中指定界值为-0.5、-0.5、0.5、0.5；

11、指定潜变量界值为0。对于潜在类别模型M2，在潜在类别1中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、0、0；在潜在类别2中指定界值为0、0、-0.5、-0.5；2.1.2 生成模拟数据Mplus首先产生符合多元正态分布的四个连续变量，然后根据MODEL POPULATION命令或者MONTECARLO命令中的POPULATION选项指定的界值，根据Logistic分布原理，使用最大似然估计方法得到四个二分类显变量。根据模型M1和模型M2指定的参数，分别产生了两组样本含量为 =1000的随机数据，本研究进行一次数值模拟并保存数据。2.1.3 模拟数据潜在类别分析把产生的模拟数据

12、直接导入Mplus中进行单样本潜在类别分析与多样本潜在类别分析。2.2 模拟数据的单样本潜在类别分析2.2.1 模型拟合指标表1 模型M1与M2拟合优度指标（略）表1结果显示指定模型拟合结果良好，符合理论预期，得到一个二分类潜在类别模型。2.2.2 参数估计结果表2参数估计结果显示：模型M1的潜在类别概率值（cluster size）分别是36.40%、63.60%，总和为1.0，可以看出类别2的比重大于类别1，差异明显。模型M2中潜在类别概率值为97.75%、2.25%，很明显潜在类别1的概率值大于潜在类别2的概率值。与因子分析中的因子贡献率类似，潜在类别的概率值越大表示在潜变量中地位越重要

13、，对显变量的影响越大。因此认为模型M1中潜在类别2作用大于潜在类别1的作用，且差异显著；模型M2中潜在类别1的作用明显大于潜在类别2的作用，结果显著。表2 模型M1与M2单样本潜在类别的条件概率与潜在类别概率（略）与因子分析中的因子载荷类似，条件概率表示各潜变量与显变量之间的关系，条件概率值越大说明潜变量对显变量的影响越大，可协助研究者解释潜变量各类别的内容与性质。可以看出模型M1的潜在类别1中显变量U3、U4发生的条件概率分别为72.7%、60.00%，而显变量U1、U2发生的条件概率为30.7%、36.3%，因此潜在类别1主要影响显变量U3、U4；在潜在类别2中显变量U1、U2发生的条件概

14、率为63.1%、56.7%，而显变量U3、U4发生的条件概率为40.3%、40.5%，与潜在类别1正好相反，潜在类别2主要影响显变量U1、U2。在模型M2潜在类别1中显变量U1、U2、U3、U4发生的条件概率为45.3%、43.7%、57.2%、51.6%，潜在类别1对四个显变量影响大小相近；潜在类别2中显变量U3、U4发生条件概率为100% 、93.9%，可以看出在模型M2中，潜在类别1不具有特异性，而潜在类别2主要影响U3、U4。综上分析模型M1具有明显的倾向性，模型M1的潜在类别1可以认为是U3、U4倾向类，而潜在类别2是U1、U2倾向类；模型M2的潜在类别1不具有识别性，而潜在类别2倾

15、向于U3、U4为“是”的类别。图1反映了模型M1四个显变量U1、U2、U3、U4发生的条件概率，图示的结果也说明了潜在类别1对变量U3、U4的影响较大，而类别2对变量U1、U2的影响较大。绘成折线图，可以直观地表现两个类别的差异性。图1 模型M1四个显变量的条件概率分布情形（略）图2 模型M2四个显变量的条件概率分布情形（略）图2反映了模型M2四个显变量U1、U2、U3、U4发生的条件概率，图示结果显示了潜在类别1对变量U1、U2、U3、U4的影响都比较接近，而潜在类别2对显变量U3、U4影响较大。2.3 模拟数据的多样本潜在类别分析2.3.1 模型拟合指标表3 多样本非限定潜在类别分析模型拟

16、合优度指标（略）表3给出了两样本潜在类别模型分析拟合效果。 2与G2显示三分类潜在类别模型结果拟合较好，而指标BIC与AIC结果显示潜变量二分类时结果较好。综合考虑各个指标选择潜变量二分类的模型。2.3.2 参数估计结果表4 多样本二分类潜在类别模型条件概率（略）表4结果显示，两样本潜在类别模型区分为两个潜在类别，全体潜在类别概率分别为69.5%、30.5%，两样本潜在类别概率分别是模型M1的49.98%、50.02%与模型M2的50.05%、49.95%，两组比例相当；而各单元格条件概率差异明显。图3 多样本比较条件概率分布情形（略）2.3.3 模型M1和M2两样本比较结果将模型M1与模型M

17、2数据合并，样本含量为2000，根据式（2）把观察值分到两个潜在类别中。以观察值0000 的分类结果为例，先根据式（1）求期望概率（见表5第5、6列）：ABCDX00001=X1 X01 X01 X01 X01=0.4510.4820.5190.5440.723=0.044ABCDX00002=X2 X02 X02 X02 X02=0.6970.6910.2650.3820.277=0.014相应地样本量乘以期望概率可以得到期望频数（见表5第7、8列），然后得到分类条件概率：BCD10000=ABCDX00001 ABCDX00001+ABCDX00002=0.759BCD20000=ABCD

18、X00002 ABCDX00001+ABCDX00002=0.241由于潜在类别1的分类条件概率大于潜在类别2的分类条件概率，因此把观察值0000 归为潜在类别1，其它观察值分类同理（见表5第9、10列）。表5 模型M1与模型M2合并样本观察值期望概率与分类情形（略）把所有观察值区分为两类，然后检验模型M1与模型M2之间潜在类别的差异性，表6中2 结果显示两个样本之间的分类没有统计学差异（P<0.001）。表6 二分类潜在类别模型多样本比较（略）注：2=1.673； df=1； P&0.05。3 讨论潜在类别分析是描述一组分类变量间相互关系所形成的数学模型，综合了结构方程模型与对数线性模

19、型的思想，可以做探索性研究，也可以用于验证性研究，拓展了潜变量模型的应用范围。探索性潜在类别模型的主要任务是决定外显变量的变异最能够被几个潜在类别所解释。当T个类别的模型即为最佳模型时，会使理论最接近实际数据，每一潜在类别有一群具有相同特征的观察值所组成。验证性潜在类别模型的主要特征是研究者基于不同的理论观点或特殊需要，比对观察数据，对模型参数进行设限，借以检验特殊反映形态是否存在。模型识别问题是潜在类别模型应用过程中的一个重要步骤。一般对潜在类别模型理论不太清楚的研究者通常会忽视这一步骤。当模型无法识别，Mplus软件会自动中止，出现警示语句。当然，在某些情形之下，电脑的输出结果并未明显告知

20、已有识别问题产生。这时需要研究者仔细阅读输出的结果。在潜在类别分析中，由于概率的参数化有其特殊前提，有可能导致模型识别问题的发生。如果模型中的参数要能够顺利求出一组最佳解，那么参数数目必须小于自由度。如果自由度小于0，将造成模型的识别不足问题，无法进行收敛求解的迭代。但是并非自由度大于0就必然可以让模型具有可识别性。如果模型无法识别，可以将部分参数设定限制，改变概率估计的方式，提高模型估计的数学条件。不过值得注意的是此时自由度的数目就未必反映估计参数的多寡，若我们要进行设限模型的比较时，参数的变动未必是自由度相减。本研究假定造成外显变量之间具有关联性的原因可能是外显变量背后存在一个共同的潜在变

21、量，在模型分析时考虑了这个变量之后外显变量既无关联性，呈现局部独立性，这只是一维的情况。如果造成外显变量之间的关联性的原因不是一个潜在类别变量，而是多个外显变量所造成，此时需利用多维度潜在类别模型（hierarchical latent class model）。这些理论模型都具有进一步研究的重要价值。目前已有多种软件可以进行潜在类别模型分析，如LatentGOLD、SAS PROC LCA和SAS PROC LTA、LEM等。本文主要使用了Mplus软件进行编程实现，Mplus相对比其它软件在处理潜在类别模型时，具有综合性强、程序简单的特点和优势，尤其是处理混合模型、多水平模型时可以说无人能

22、出其右。【参考文献】 1 & latent class analysis. Cambridge University Press，2002.2 L.Kaufman.& Finding Groups In Data: An Introduction To Cluster Analysis.New York:wiley,1996.3 邱皓政,著. 潜在类别模型的原理与技术. 北京: 教育科学出版社, 2008.4 张岩波. 潜变量模型. 北京: 高等教育出版社, 2009.5 ; Mplus Statistical Analysis With Latent Variables Users Guide.Fifth Edition.Los Angeles, CA: 2007,11.

注意事项

本文（潜在类别模型及数据模拟分析Word格式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。