心脏病的判别.docx
- 文档编号:15956336
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:45
- 大小:206.57KB
心脏病的判别.docx
《心脏病的判别.docx》由会员分享,可在线阅读,更多相关《心脏病的判别.docx(45页珍藏版)》请在冰点文库上搜索。
心脏病的判别
心脏病的判别
摘要
本文研究的是一个多元分析判别问题,需要解决的是如何根据各项生理指标,判定就诊者是否患有心脏病以及患病的程度,并确定哪些指标是判定患心脏病的关键因素,从而减少化验指标,以便及时发现疾病。
为了解决上述问题,首先对给定数据作初步处理和分析,然后利用Fisher判别法建立数学模型,对所求结果进行检验,并借助降维分析法的因子分析得到心脏病判定的关键指标,确定心脏病的最佳诊断方法,同时检验模型的正确率。
对于问题一:
根据附录二提供的数据,将250个就诊者按患病程度分为五个总体,并对提供的数据进行合理的处理,建立了多总体Fisher判别模型,利用SPSS软件对选取的样本进行分析,得出初步判定结果,但是验证的正确率只有84.2%。
再将判定有误查的数据剔除,在此基础之上重新确定判别函数,并根据Fisher后验概率最大这一判别规则进行回代,最终得出运用本判别方法判断“是否患病”的正确率为95.5%,判断“患病程度”的正确率为60.2%。
由此建立了Fisher判定的最优数学模型。
(详细结果见表6)
对于问题二:
应用问题一中所建立的Fisher判别函数,将需要判定的44名就诊者的各项生理指标带入到判定函数进行求解,通过判断,得出其患病情况。
所判定的患病情况结果为:
患病程度为1的就诊者的序号为42,其他的就诊者都没有患病。
(详细结果见表8)
对于问题三:
建立了因子分析模型。
首先利用SPSS软件得到特征值及因子累计贡献率确定最优因子数量,然后找到旋转因子载荷矩阵,最后通过因子分析法得到影响人们患心脏病的主要8个生理指标如下:
A:
年龄;B:
性别;D:
静息血压;F:
空腹时血糖>120mg/dl;G:
静息时心电图结果;I:
运动是否诱发心绞痛;J:
运动心电图ST下降程度;M:
地中海贫血。
对于问题四:
同样采用Fisher判别方法,将问题三中得到的关键指标代入到判别函数中进行求解,得出的判定结果为:
患病程度为1的就诊者的序号为42,其他的就诊者都没有患病(详细结果见表12)。
并与问题二所得结果进行比较,可以得出所建判别方法及判别准则在判断“是否患病”“患病程度”时,与第二问具有同样的判定结果,这可以从某种程度上说明问题三中得到的指标可以作为判别心脏病的关键指标。
最后,对所建立的模型以及求解结果进行分析,可以得出所建立的模型对心脏病的判别正确率高,且得到的关键判别指标合理,所得模型稳定性好,可以进行推广使用。
关键词:
多元分析;多总体Fisher判别法;降维分析;因子分析
1问题重述
1.1问题背景
心脏是维持全身血液循环的最重要器官。
由于现代人不正确的饮食和生活习惯,心脏病患者人数逐年上升,心脏病已经成为威胁人类生命的十大疾病之一,除了老年人,中青年也成为心脏病猝死的高危人群。
年轻人的心脏病突发往往没有明显先兆,突然发作时很危险,然而心脏病的病因很多,有时很难快速判断一个人是否患有心脏病,因此研究出一些关于患心脏病的关键指标显得尤为重要。
1.2已给信息
医院对就诊者进行心脏病判别时,需要采集各项生理指标,通过这些指标的分析可以初步的得出就诊者是否患有心脏病。
其中文中给出了部分信息和数据:
(1)各项指标A,B,……M的含义(见附录一),指标N表示是否确诊为心脏病以及患病的程度;
(2)到某医院做心脏病检测的一些确诊者的生理指标数据;
(3)44名待确诊的就诊人员的生理指标数据。
1.3需要解决的问题
问题一:
根据附录一中的数据,提出判别心脏病以及患病程度的方法,并检验方法的正确性。
问题二:
按照问题一提出的方法,判断附录三中的44名就诊人员的患病情况。
问题三:
能否根据附录二的数据特征,确定哪些指标是影响人们患心脏病的关键或主因素,以便减少化验的指标。
问题四:
根据问题三的结果,重复问题二的工作,并与问题二的结果对比作进一步分析。
2模型假设与符号说明
2.1模型假设
假设1:
通过题目中所给13种生理指标就可以判定是否患心脏病及患心脏病的程度;
假设2:
人在健康状况时,题目中所给生理指标的值基本相同;
假设3:
不考虑除患病外其他因素对对题目中所给生理指标的影响;
假设4:
正常人除性别年龄外其他基本生理指标相差不大;
假设5:
本题所提供的确诊病例的结果和就诊人员的结果基本都是准确可信的。
2.2符号说明
表1符号说明
符号
符号说明
多总体Fisher判别法的第i个总体(i=0,1,2,3,4)
第i个总体的样本数
Fisher判别系数
第i个总体的第a个样本的观测向量a=(1,2,……,12)
因子分析中特殊因子
因子分析中的变量(p=1,2,……,12)
因子分析中的公共因子
因子分析中的载荷因子
3问题分析
本题研究的是多元分析中的判别分析类问题,解决的是心脏病的判别问题,旨在判别就诊人员的患病情况以及确定影响人们患心脏病的主因素以减少化验指标。
针对问题一:
在已知就诊者各项生理指标及患病情况的前提下,提出判别心脏病以及患病程度的方法,并检验提出方法的正确性。
考虑到此题通过研究个体的观测指标来推断该个体的所属类型,我们采用判别分析法进行求解。
判别分析法包括:
距离判别法、Fisher判别法、Bayes判别法。
综合考虑了这三种判别方法的优缺点,我们决定采用Fisher判别法进行求解。
首先,我们可以通过SPSS软件处理原始数据,衡量该十三项指标的相应的标准差、方差、均值等。
然后,利用所给数据求解出判别函数,建立判别准则,从而得到确定心脏病以及患病程度的方法。
最后,通过回代法,将确诊者的各项指标代入判别函数,通过判别准则得出分类情况,再与原来的分类情况进行对比,即可计算出正确率,从而验证所得方法的正确性。
针对问题二:
在第一问的求解基础上,分析了待诊断者的信息,在合理的处理之后剔除了一些影响较小的指标,利用SPSS软件重新分析确诊者的数据,对数据进行重新整理。
然后通过Matlab软件,将附录二中44名待诊断者的数据代入判别函数中,即可求出判别结果确定就诊人员的患病情况。
针对问题三:
要根据题目已知的数据来确定影响人们患心脏病的关键指标或主因素,以便减少化验指标。
可以采用降维数常用分析方法因子分析法,借助SPSS软件对数据进行因子分析以得到较少的几个因子反映原资料的大部分信息,这样就可以找出影响人们患心脏病的关键指标。
针对问题四:
要根据问题三得到的关键指标,重新进行诊断,然后与问题二的结果进行对比作进一步的分析即可。
4数据分析
4.1数据处理
根据确诊者的信息,统计得出其中患心脏病人数为93个,正常的为157个。
由于数据中存在“-9”这一类异常数据,因此将数据做如下处理:
1、E为血清中的胆固醇含量,将该指标下的-9分别置为有效范围内的平均值。
2、F为空腹时的血糖,将其中的-9均置换为0.
3、G为指标静息时心电图结果,0:
正常,1:
有ST-T波异常2:
可能左心室肥大,通过数据的观察,G指标下有一个数据为-9,将其置为1.
4、H为最大心跳速率,我们将正常人的该指标下的-9置为正常人的该指标的平均值,其他患病情况分别根据患病程度置为其范围内平均值。
5、K表示ST段斜坡,1:
上升,2:
平,3:
下降,我们将正常人的该指标下的-9置为2,患病情况下的-9随机置为1或者3.。
6、L为大血管属性,其有效数据只有3个,对整体判定结果影响不大,故我们将L数据舍弃。
7、M表示地中海贫血,其中3表示正常,6表示固定缺陷,7表示可逆缺损。
查资料可知,地中海贫血能诱发心脏病,将正常人的M指标下的-9置为3,患病程度为1,2情况下的-9置为7,患病程度为3,4情况下的-9置为6。
所有数据详细处理结果见附表二。
5问题一模型的建立与求解
5.1模型建立
Fisher判别模型的导出过程:
共有k个总体
抽取样本数分别为
令
.
为第i个总体的第a个样本的观测向量。
假定所建立的判别函数为:
其中
(1)根据求随机变量线性组合的均值和方差的性质可知,
在
上的样本
均值和样本方差为:
则总的均值向量
满足:
(2)在多总体情况下,Fisher准则就是要选取系数向量c,使
达到最大,其中
是人为的正的加权系数,它可以取为先验概率.如果取
并将
代入上式可化为:
其中组内离差阵E和总体之间样本协差阵A有:
(3)为求
的最大值,根据极值存在的必要条件,令
利用对向量求导
的公式:
因此
这说明
及c恰好是A、E矩阵的广义特征根及其对应的特征向量.由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因为A为非负定的,所以非零特征根必为正根,记为
于是可构造m个判别函数
(4)对于每一个判别函数必须给出一个用以衡量判别能力的指标
定义为:
m0个判别函数
的判别能力定义为:
(5)如果m0达到某个人定的值(比如85%)则就认为m0个判别函数就够了.
有了判别函数之后,在实际工作中可以选用取
的情况的加权法.
考虑到每个判别函数的判别能力不同,记
其中
是由
求出的特征根.
若
则判
.
综上所述,Fisher判别法的模型为:
5.2模型求解
5.2.1确定判别函数
将250组数据通过SPSS软件分析后得到Fisher判别函数的输出如表2所示:
表2典型判别式函数系数
典型判别式函数系数
函数
1
2
3
4
A
-.016
.022
.023
.055
B
.013
.042
.872
-.445
C
.197
-.214
-.292
-.375
D
-.001
.016
.013
-.014
E
.002
.004
.000
-.007
F
-.174
.326
1.753
-.319
G
-.061
.807
.584
.777
H
-.001
-.010
-.011
.018
I
.427
.641
-1.066
-.735
J
.353
.754
-.446
.601
K
-.915
.001
.878
.065
M
1.498
-.388
.279
.207
常量
-5.341
-1.364
-3.642
-1.340
非标准化系数
根据上述表格可求得Fisher判别函数如下:
将某待诊者的十二项生理指标分别带入到上述各类型对应的Fisher判别函数,得到五个对应的Fisher函数值(见附表三)。
实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。
组质心处的函数系数见下表3:
表3组质心处的函数
组质心处的函数
N
函数
1
2
3
4
0
-2.305
-.046
-.005
-.007
1
4.309
-.991
-.117
.140
2
4.466
-.064
.179
-.344
3
2.930
.997
.409
.194
4
3.482
1.498
-.673
-.016
表3为各类别重心在空间中的坐标位置,这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。
令上表中
即0,1,2,3,4所对应的四维坐标为(
)(i=0,1,2,3,4),即各类别重心在空间中的坐标位置。
上述Fisher判别函数算得的具体坐标位置为(
),(i=0,1,2,3,4).令各点离重心的距离为D。
Fisher判别模型为:
运用MATLAB程序进行计算可得到(程序见附表四),则
,可以判断某待诊者所属的类型。
5.2.2得出结果
根据判别函数以及上述的离重心最小的距离可以得到各待诊者所属的类型,其中,序号表示病人的排号,N表示判断所得的数据,Y表示验证后的数据,具体对比如表4:
表4数据处理
序号
N
Y
序号
N
Y
序号
N
Y
序号
N
Y
2
0
0
64
0
0
127
0
0
190
1
1
3
1
0
65
1
0
128
0
0
191
0
0
4
0
0
66
0
0
129
0
0
192
3
3
5
3
4
67
0
0
130
0
0
193
0
0
6
0
0
68
0
0
131
0
0
194
0
3
7
0
0
69
0
0
132
0
0
195
0
0
……
……
……
……
……
……
……
……
……
……
……
……
57
0
0
120
0
0
183
1
2
246
0
0
58
1
0
121
1
0
184
0
0
247
1
2
59
1
3
122
3
1
185
3
4
248
0
0
60
0
0
123
0
0
186
0
0
249
2
1
61
3
3
124
0
0
187
0
0
250
2
3
62
0
0
125
4
4
188
2
3
251
2
2
63
0
0
126
0
0
189
0
0
由上表可知,有7个人在“是否患病”中被误判断,有37个人在“患病程度”中被判断错误,由此可以得出:
判断“是否患病”的准确率为
判断“患病程度”的准确率为
。
5.2.3模型一的检验分析
对处理后的数据进行SPSS处理,得到一系列相关结果,通过表5可显示各种患病情况的正误分类,可清晰看出各种情况下的被误判的情况。
表5250组数据分类结果
分类结果b,c
N
预测组成员
合计
0
1
2
3
4
初始
计数
0
150
3
0
3
1
157
1
0
22
8
4
0
34
2
0
8
10
2
3
23
3
0
2
1
14
6
23
4
0
0
1
2
10
13
%
0
95.5
1.9
.0
1.9
.6
100.0
1
.0
64.7
23.5
11.8
.0
100.0
2
.0
34.8
43.5
8.7
13.0
100.0
3
.0
8.7
4.3
60.9
26.1
100.0
4
.0
.0
7.7
15.4
76.9
100.0
交叉验证a
计数
0
150
4
0
2
1
157
1
0
19
10
4
1
34
2
0
11
5
3
4
23
3
0
2
2
11
8
23
4
0
0
1
4
8
13
%
0
95.5
2.5
.0
1.3
.6
100.0
1
.0
55.9
29.4
11.8
2.9
100.0
2
.0
47.8
21.7
13.0
17.4
100.0
3
.0
8.7
8.7
47.8
34.8
100.0
4
.0
.0
7.7
30.8
61.5
100.0
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的82.4%个进行了正确分类。
c.已对交叉验证分组案例中的77.2%个进行了正确分类。
通过Fisher判别法可得到的对整体进行正确分类为:
,从上表计算可得知判断“是否患病”的准确率为
,判断“患病程度”的准确率为
。
5.2.4模型一的比较分析
现在将上述SPSS软件分析得到的44个错误结果进行剔除,对剩下206个数据进行分析,SPSS的分类结果显示如表6:
表6206组数据分类结果
分类结果b,c
N
预测组成员
合计
0
1
2
3
4
初始
计数
0
150
0
0
0
0
150
1
0
18
4
1
0
23
2
0
1
9
0
0
10
3
0
0
0
14
0
14
4
0
0
1
0
8
9
%
0
100.0
.0
.0
.0
.0
100.0
1
.0
78.3
17.4
4.3
.0
100.0
2
.0
10.0
90.0
.0
.0
100.0
3
.0
.0
.0
100.0
.0
100.0
4
.0
.0
11.1
.0
88.9
100.0
交叉验证a
计数
0
150
0
0
0
0
150
1
0
16
6
1
0
23
2
0
1
9
0
0
10
3
0
0
0
14
0
14
4
0
0
1
1
7
9
%
0
100.0
.0
.0
.0
.0
100.0
1
.0
69.6
26.1
4.3
.0
100.0
2
.0
10.0
90.0
.0
.0
100.0
3
.0
.0
.0
100.0
.0
100.0
4
.0
.0
11.1
11.1
77.8
100.0
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的96.6%个进行了正确分类。
c.已对交叉验证分组案例中的95.1%个进行了正确分类。
由表6可知,依然有4个患病程度为1的患者被误判别为程度2.从而得到已对初始分组案例中的96.6%个进行了正确分类的结果。
因此选择采用此时分析得到的Fisher判别函数系数来解决问题。
判别函数系数如表7:
表7206组数据典型判别式函数系数
典型判别式函数系数
函数
1
2
3
4
A
-.007
.015
.070
-.022
B
.219
.135
.629
.173
C
.213
-.157
-.283
.263
D
-.008
.024
-.004
.008
E
-.001
.007
-.004
.008
F
.111
.508
2.149
.219
G
-.037
.754
1.196
-.839
H
.003
-.006
-.001
.001
I
-.201
.613
-.364
.723
J
.248
.832
-.797
-.989
K
-.589
1.572
1.278
1.591
M
10.890
-.234
.351
.163
(常量)
-41.939
-7.001
-4.861
-6.033
非标准化系数
问题一首先运用250组数据进行SPSS软件分析,得到判别系数,建立判别函数,运用Fisher准则进行计算验证,后来剔除掉以上分析出来的错误结果,重新对206组数据进行同样的处理,得到新的判别函数,此时的正确率较之前高,因此选择采用。
建立相应的最优判别函数模型如下:
6问题二的解答
问题二的解答需要采用问题一中的Fisher判别函数,其中Fisher判别方法的基本原理如图一:
图一Fisher判别原理及过程简图
应用第一问所建立的最优Fisher判别函数,将需要判别的44位就诊者的各项数据带入判别函数,得到44名患者的判别结果如表8:
表844名就诊者患病判定结果
是否患病
就诊者序号
患病程度
就诊者序号
0
1,2,3,4,5,………..41,43,44
1
42
2
0
3
0
4
0
7问题三模型的建立与求解
7.1因子分析模型建立
因子分析(factoranalysis)是一种数据简化的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
通过这个原理就可以找出影响心脏病的关键因素,因子分析模型的数学模型为:
设
个变量,如果表示为:
称
为公共因子,是不可观测的变量,它们的系数称为载荷因子。
是特殊因子,是不能被前
个公共因子包含的部分。
并且满足:
的值越小,则公共因子共享的成分越多。
通过对变量的相关系数矩阵内部结构进行分析,从中找出少数几个能够控制原变量的因子
,选取公共因子的原则是尽可能包含更多的原始变量信息,利用
,在现原始变量之间的相关关系,达到简化变量、降低变量维数和对原始变量的再解释和命名的目的。
7.2因子分析模型求解
(1)确认待分析的原始变量是否适合作因子分
在进行因子分析之前需要判别原始变量是否适合作因子分析,通过SPSS软件计算得到KOM和Bartlett的检验,通过校度检验可以得出KMO=0.727>0.6,说明因子分析的效果很好;Bartlett球形检验值为766.569,P=0.000<0.001,否定原假设,即认为变量间的相关矩阵不是单位矩阵,各变量间具有一定的相关性,可以进行因子分析。
(2)因子分析碎石图确定最优因子数量
应用SPSS软件来确定因子的载荷矩阵。
在确立因子个数的时候,得出因子分析碎石图和因子累计贡献率,分别如图二。
图二碎石图
上图二是碎石图,就是按照特征根大小排列的主成分散点图,横坐标表示因子数目,纵坐标表示特征根。
对应特征根值越大则用来代表的合理性越大。
从图中可以直接得出前3个主成分的特征根都在1以上,从第4个因子开始,特征根的值迅速减少,而终究取几个因子,根据碎石图无法确定,故在还需要分别计算各种因子数取值下的累计贡献率
(3)求解特征根因子累计贡献率确定最优因子数量如表9.
表9主成份表
成份
初始特征值
合计
累积%
1
3.210
26.754
2
1.376
38.224
3
1.188
48.127
4
1.067
57.021
5
.976
65.158
6
.931
72.913
7
.853
80.018
8
.740
86.188
9
.596
91.158
表9为主成分列表,从表中可见,第一主成分特征为3.210,方差贡献率26.754%,根据提取因子的条件—特征根大于1,基于这个原则,结合因子分析碎石图,本例中提取4个因子。
(4)旋转成份矩阵如表10.
表10旋转成分
成份
1
2
3
4
A
.053
.823
.101
.040
B
.257
.027
.464
-.257
C
.695
.063
.263
-.083
D
.145
.554
-.143
.070
E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 心脏病 判别
![提示](https://static.bingdoc.com/images/bang_tan.gif)