数据分析与统计软件的课程设计Word文件下载.docx
- 文档编号:3596352
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:21
- 大小:230.24KB
数据分析与统计软件的课程设计Word文件下载.docx
《数据分析与统计软件的课程设计Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据分析与统计软件的课程设计Word文件下载.docx(21页珍藏版)》请在冰点文库上搜索。
其中,b0,b1,b2,…,bp是p+l个待估参数,εi表示第i次试验中的随机因素对yi的影响。
为简便起见,将此n个方程表示成矩阵形式:
Y=XB+ε
其中
Y=(y1,y2,…,yn)'
B=(b0,b1,…,bp)'
ε=(ε1,ε2,…,εn)'
上式便是p元线性回归的数学模型。
而参数估计的方法是使用最小二乘估计。
(2)Logistic回归模型的原理说明:
拟合logistic回归采用最大似然估计法。
检验模型或参数的显著性使用卡方统计量进行检验。
利用logit变换可将属性变量取某个值的概率p的logit变换表示为自变量的线性函数,即logit(P)=β0+β1X1+β2X2+…+βmXm或等价于p=exp(β0+β1X1+β2X2+…+βmXm)1+exp(β0+β1X1+β2X2+…+βmXm)
,logit(p)=p1-p
。
三、数据分析
1、设置指标
经过研究选取了以下9个因子;
AGE为孕妇的年龄;
LWT为孕妇最后一次月经时的体重;
RACE为种族(1=白种人,2=黑种人,3=其他);
SMOKE为怀孕期间吸烟状况;
PTL为早产史;
HT为高血压病史;
UI为子宫过敏的情况;
FTV为怀孕前三个月接受产前护理的情况;
LOW为低出生体重情况。
其中,因子:
RACE种族:
“1”为白种人,“2”为黑种人,“3”为其他;
SMOKE怀孕期间吸烟状况:
“0”为没有,“1”为有;
PTL早产史:
“0”为没有,“1”为有1次,以此类推;
HT高血压病史:
UI子宫过敏的情况:
FTV怀孕前三个月接受产前护理的情况:
“0”为没有,“1”为1次,“2”为2次,以此类推;
LOW低出生体重情况:
“0”为不存在(出身体重>
=2500g),“1”为存在(出身体重<
2500g)
2、数据样本与数据来源
低出生体重数据:
……
表1
现运用SAS软件对上述数据进行回归分析。
源程序:
datark;
inputLOWAGELWTRACESMOKEPTLHTUIFTV;
cards;
045123100001
024116100001
019120110000
035170101001
031120100002
025130100002
022129100000
026160300000
021115100001
01695300001
020158100001
025120100002
028130300000
028134300001
014135100000
020170110000
033117100011
018120300001
029130110002
016170200004
032186100002
018120110002
022169100000
030112100001
025241200100
024110301000
023110100001
020120300000
019184110100
024110100001
030137100001
029135100001
029154100001
019147110000
016135110000
02595113010
021134300002
019235110100
022125100001
024133100000
036175100000
023130100000
017120310000
019105300000
023123300000
020127300000
030110300000
032170100000
022131100001
023190100000
020121210000
032134111004
025140100001
018229200000
016112200000
023115310001
031150310002
020141102011
022158201002
022112112000
028250310006
020169301011
024115300002
026133312000
028140100000
023119300002
024110300000
017119300000
021110310010
030153300000
020103300000
019115300000
016110300000
03095110002
022130110000
023128300000
022120100101
019132300000
024115100002
02285310000
032132100004
01890110010
019189100002
023130200001
021160100000
021185210002
033109110001
031215110002
027124110000
025155100001
025125200000
029140110002
019138110002
02490111001
035121211001
029150100002
026168210000
017113200001
017122110000
025120300012
028167100000
028120300000
036202100001
032121300002
031100100013
028120110001
020120300010
025118110003
01598200000
018100110000
02295300100
030107301012
019150300001
01995300000
026113110000
029123110001
022118100001
017103300001
021124300000
018107110010
021108110012
020105110001
033155300003
019182200010
114100300002
12394310000
117142200100
121130110103
126190110000
114101311000
12895110002
120105300003
126154301101
117120200002
123110111000
117120110003
130142111000
122130110001
123120300000
120122210000
124105210000
115115300010
123187210001
131102111001
115110100000
12696300000
121100301004
118110211000
120121111010
118148300000
125105301001
120109300000
117110110000
12080310010
122130111011
127130200010
120120210003
117130311010
124138100000
119112110010
126117111000
119102100002
120125300010
12589302001
121103300000
124155111000
12592110000
120150110002
121200200012
116130300001
125115300000
11991112010
132105110000
121165110101
124132300100
124128201001
127150300000
12397300011
12585300010
125105301100
134187210100
129130100012
128120311010
;
procprint;
run;
proccorrpearson;
varLOWAGELWTRACESMOKEPTLHTUIFTV;
procreg;
modelLOW=AGELWTRACESMOKEPTLHTUIFTV;
modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=adjrsqcpaic;
modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwisevif;
outputout=outr=residual;
dataout1;
setout;
setrk;
z=abs(residual);
procprintdata=out1;
proccorrdata=out1out=out2;
varAGELWTRACESMOKEPTLHTUIFTVz;
proccapabilitydata=out1;
ppplotresidual;
symbolc=redi=nonev=star;
proclogisticdata=rk;
modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwise;
四、输出结果以及相关分析:
1.录入数据:
2.简单统计量和Pearson相关系数:
由相关系数我们可以认为,各个危险因子都与低出生体重情况具有较强的相关关系,所以尝试使用简单多元线性回归模型进行拟合。
3.随机误差项的异方差检验:
由异方差检验结果,我们可以选择使用FTV来构造权函数,进行加权最小二乘来估计参数系数,来减小随机误差项的异方差影响。
所以采用加权最小二乘法弱化异方差影响后的回归方程为:
y=0.685-0.02*AGE-0.002*LWT+0.053*RACE+0.159*SMOKE+0.184*PTL+0.479*HT+0.111*UI+0.038*FTV
4.参数估计及模型检验:
拟合模型为:
LOW=0.42702-0.00529*AGE-0.00211*LWT+0.07743*RACE+0.16296*SMOKE+0.11712*PTL+0.37013*HT+0.15424*UI+0.00703*FTV,在α=0.1的情况下,只有参数RACE、SMOKE、HT显著,而其他参数估计都不显著,但方差分析中p<
0.0002,说明自变量从整体上对LOW具有显著的影响,所以我们对自变量进行选择,剔除不显著变量,优化回归方程。
5.变量选择:
(1)最优子集法:
有最优子集法的输出结果我们可以看出,当自变量取LWT、RACE、SMOKE、PTL、HT和UI时AIC最小,所以方程最优,所以方程应该保留LWT、RACE、SMOKE、PTL、HT和UI这6个自变量。
(2)逐步回归法:
最终输出结果:
根据逐步回归法的结果,选择LWT、RACE、SMOKE、PTL、HT和UI作为自变量时,所得到的拟合模型以及相关的模型显著性检验:
所以结合最优子集法和逐步回归法的结果,我们可以认为自变量取LWT、RACE、SMOKE、PTL、HT和UI时,所得到的回归方程:
LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UI最优,并且vif均较小,我们可以认为各变量之间不具有多重共线性。
6.逻辑回归
因为因变量LOW为二分类变量,所以采用最简单的logistic回归模型进行配合,采用逐步筛选法筛选变量:
(1)数据的基本分析:
由上图知:
总共有189个样本,其中LOW=0的130个,LOW=1的有59个。
(2)参数估计:
逐步筛选法过程:
筛选法最终结果:
所以,模型参数估计结果为:
逐步回归法最终筛选出了三个有意义的变量LWT、PTL和HT,其P值均小于0.05,所以最终回归方程为:
(3)模型检验:
模型的总检验,LikelihoodRatio的P值=0.0003,Score的P=0.0004,Wald的P值=0.0016,均小于0.05,故模型总体有意义。
模型参数的95%的置信区间为:
五、结论总结:
由普通多元线性回归分析和逻辑回归分析,得到了多个可能危险因子与低出生体重情况的函数关系为:
LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UI
t检验和方差分析检验结果确定回归方程显著有效,拟合效果良好,并且消除了异方差,所以我们可以认为,上述回归方程可以可靠地体现,各个危险因子与低出生体重情况之间的内在联系。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 统计 软件 课程设计