基于logistic模型银行客户违约问题研究.docx
- 文档编号:785751
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:7
- 大小:22.89KB
基于logistic模型银行客户违约问题研究.docx
《基于logistic模型银行客户违约问题研究.docx》由会员分享,可在线阅读,更多相关《基于logistic模型银行客户违约问题研究.docx(7页珍藏版)》请在冰点文库上搜索。
基于logistic模型银行客户违约问题的研究
摘要
本文是基于logistic回归模型对银行客户是否有拖欠问题进行研究分析。
首先,本文对申请贷款的客户数据进行了解释。
其次,重点介绍了二分类和多分类变量logistic回归模型及其背景和应用。
然后,运用SAS软件对贷款客户数据建立模型,并用最大似然估计对模型中的参数进行估计,运行结果。
最后,对结果进行分析。
一、数据解释
为了研究部银行客户贷款是否违约的问题,数据如下:
编号
年龄x1
教育x2
工龄x3
收入x4
负债率x5
性别x6
违约
Y
1 1
1
17
1
1
1
1
2 0
2
10
0
0
1
0
3 1
3
15
0
0
1
0
4 1
1
15
0
0
1
0
5 0
2
2
1
1
0
1
6 1
3
5
0
0
1
0
7 1
1
20
0
0
1
0
8 1
2
12
0
0
0
0
9 0
3
3
1
1
1
1
10 1
1
0
0
0
1
0
11 0
2
0
0
0
0
0
12 0
3
4
0
0
0
0
13 1
1
24
0
0
0
0
14 1
2
6
0
1
0
0
15 1
3
22
0
0
1
0
16 1
1
9
0
0
1
1
17 1
2
13
1
1
1
1
18 1
3
23
0
0
0
0
19 1
1
15
0
0
1
0
20 0
2
7
0
0
1
0
21 0
3
15
0
1
1
1
22 1
1
18
1
0
0
0
23 1
2
5
0
0
1
0
24 0
3
9
0
0
1
0
上面数据是大约700个申请贷款的客户,进行随机抽样的结果:
X1:
“1”表示年龄大于30岁的客户,“0”表示年龄小于30岁的客户。
X2:
顾客的教育程度分为高中、大学、大学以上,分别用“1”“2”“3”表示。
X3:
工龄。
X4:
“1”表示年收入小于五十万的客户,“0”表示年收入大于五十万的客户。
X5:
“1”负债率大于百分之十的客户,“0”表示负债率小于百分之十的客户。
X6:
“1”表示男士,“0”表示女士。
二、理论基础
20世纪70年代以来随着对该模型研究的深入,形成了多值logistic回归模型(多项反应分类logistic回归模型和有序反应分类的logistic回归模型)、多水平logistic回归模型和模糊logistic回归模型等回归模型,本文将对多分类
logistic回归模型和二分类logistic回归模型做简单介绍。
二分类logistic回归模型的应用背景
当事件A伟一般分类变量,将事件A令为Y(Y的取值为0或1),并且在整个过程中Y服从二项分布,即:
Y~b(P(Xi);1),则可以应用二分类logistic回归模型对事件进行分析。
二分类logistic回归要求Y有两种取值,即连个分类
(0或1),预测事件发生或者不发生的概率分别是多少。
在此模型中,因变量必须是连续的。
二分类logistic回归模型也被广泛应用与社会的预测分析中。
例如,品质变量性别有两个类别,可将这两个类别分别以0或1二值变量的形式重新编码。
如设置变量Y1表示是否男,取1表示男,取0表示女。
一位年轻人可能高中毕业或未能毕业;一位工人可能被雇佣或失业;一位处在临床试验中的病人在一个观察期内对治疗可能有反应或没反应。
这类数据具有两种可能的结果,呗成为二类数据。
习惯上,其结果
通常被描述伟成功或失败。
关注的实质结果一般被看做成功(Y=1),而它的反面则看作失败(Y=0)。
对于二分类因变量,研究着的目标是以一组自变量为条件来估计或预测成功或失败的概率。
二分类logistic回归模型的定义
在分析分类变量时,通常采用对线性模型,logistic回归模型是对数线性模型的一种特殊形式。
假设有一个理论上存在的连续反应变量Y代表事件发生的可能性,期值域为负无穷到正无穷,当该变量值域跨越一个临界值C时,便导致事件发生,于是有:
ìY=1
î
íY=0
Y>C
其他
这里,Y是实际观察到的反应变量。
Y=1表示事件发生,Y=0表示事件不发生。
因变量Y是二值的,仅取0和1两个值,p=P(Y=1)为研究对象,设有k个因素
ea0+b1x1+,...,+bkxk
011
kk
x1,...,xk影响因素Y的取值,则称p=1+ea+bx+,...,+bx
为logistic回归模型,其中的k个因素x1,...,xk称为logistic回归模型的协变量。
若g(x1,...,xk)是线性的,则上述模型为logistic线性回归模型:
ln p
1-p
=¶0+b1x1
+...+bkxk
其中,b0,b1,...,bk是待估参数。
可以求得:
p =ea+bx+,...,+bx
1-p
011 kk
从而的到概率p的计算公式:
ea0+b1x1+,...,+bkxk
011
kk
p=1+ea+bx+,...,+bx
多分类logistic回归模型的应用背景
Logistic回归模型比较常用的是因变量伟二分类的情况,这也是比较简单的一种形式,但是现实中,因变量的分类经常多于两类,如疗效可能是无效、显效、痊愈三类。
当然我们可以把其中两类进行河滨,然后仍然按照二分类
logistic回归进行分析,但是合并的弊端实现而易见的,它可能损失一定的信息,二多分类logistic回归模型则充分利用了完整的信息,可能提供更多的结果。
多分类变量是将预测结果分为三类或者三类以上。
用于探索影响反应变量的因素,研究在某一定条件下个体呈现某种状态的概率,比较在不同自变量取值组合下个体呈现某种状态的相对危险性等。
Logistic回归模型在离散资料的分析中应用广泛,特别是在医疗卫生领域发挥着十分重要的作用。
多分类logistic回归模型的定义
设logistic回归模型中,因变量Y不再是0、1二值的,二十有多个水平,多个分类,例如有C个水平,Y的取值分别为0、1…C-1,显然p0+p1+...+pC-1=1.x1...xk,为相应的k歌自变量即影响Y取值的因素,则可拟合如下C个logistic回归方程:
p0=
1
1+eg0(x)+eg1(x)+...+egc-1(x)
eg1(x)
p1=1+eg(x)+eg(x)+...+eg
(x)
...
0 1
egC-1(x)
c-1
0
1
pC-1=1+eg(x)+eg(x)+...+eg
c-1
(x)
以上三式多为分类logistic回归模型,其中k个因素x1,...,xk为模型的协变量,
其中g0(x1...xk),g1(x1...xk),gc-1(x1...xk)是关于Xi的线性方程,从而得到C-A
个概率p的的计算公式:
p0=
1
1+eg0(x)+eg1(x)+...+egc-1(x)
eg1(x)
p1=1+eg(x)+eg(x)+...+eg
(x)
...
0 1
egC-1(x)
c-1
0
1
pC-1=1+eg(x)+eg(x)+...+eg
c-1
(x)
三、实例分析
根据此数据建立适当的模型,看这些变量对客户拖欠问题是否有显著影响,影响程度如何。
对于本案例,利用三分之二的数据建立一个logistic模型,再用余下的三分之一的数据进行预测。
由于此数据没有按顺序排列,所以用18个观测值来建模,用剩下的6个观测值进行预测。
程序
datatuoqian;inputx1-x6y;cards;
1
1
17
1
1
1
1
0
2
10
0
0
1
0
1
3
15
0
0
1
0
1
1
15
0
0
1
0
0
2
2
1
1
0
1
1
3
5
0
0
1
0
1
1
20
0
1
1
0
1
2
12
1
0
0
0
0
3
3
1
1
1
1
1
1
0
0
0
1
0
0
2
0
0
0
0
0
0
3
4
1
0
0
0
1
1
24
0
0
0
0
1
2
6
0
1
0
0
1
3
22
0
0
1
0
1
1
9
0
0
1
1
1
2
13
1
1
1
1
1
3
23
0
0
0
0
;
proclogisticdata=tuoqiandesending;modely=x1-x6 /selection=forward;
outputout=prepp=phatlower=lclupper=ucl;run;
procprintdata=tuoqian;run;
程序结果:
TheLOGISTICProcedureModelInformation
DataSet WORK.TUOQIAN
ResponseVariable yNumberofResponseLevels 2
Model binarylogit
OptimizationTechnique Fisher'sscoring
NumberofObservationsRead 18
NumberofObservationsUsed 18
ResponseProfile
Ordered Total
Value y Frequency1 1 5
2 0 13
Probabilitymodeledisy=1.ForwardSelectionProcedure
Step 0.Interceptentered:
ModelConvergenceStatus
Convergencecriterion(GCONV=1E-8)satisfied.
-2LogL=21.270
ResidualChi-SquareTest
Chi-Square DF Pr>ChiSq
10.9820 6 0.0889
Step 1.Effectx4entered:
ModelConvergenceStatus
Convergencecriterion(GCONV=1E-8)satisfied.
ModelFitStatisticsIntercept
Intercept and
Criterion
Only
Covariates
AIC
23.270
18.522
SC
24.161
20.303
-2LogL
21.270
14.522
SAS系统 2014年06月09日星期一上午07时36分07秒 13TheLOGISTICProcedure
TestingGlobalNullHypothesis:
BETA=0
Test
Chi-Square
DF
Pr
>ChiSq
Likelihood
Ratio
6.7481
1
0.0094
Score
6.7846
1
0.0092
Wald
5.1901
1
0.0227
ResidualChi-SquareTest
Chi-Square DF Pr>ChiSq6.0334 5 0.3030
NOTE:
No(additional)effectsmetthe0.05significancelevelforentryintothemodel.
SummaryofForwardSelectionEffect Number Score
Step Entered DF In Chi-Square Pr>ChiSq1 x4 1 1 6.7846 0.0092
AnalysisofMaximumLikelihoodEstimatesStandard Wald
Parameter
DF
Estimate
Error
Chi-Square
Pr
>ChiSq
Intercept
1
-2.3979
1.0445
5.2707
0.0217
x4
1
3.0910
1.3568
5.1901
0.0227
1、变量的选择
首先,把所有的解释变量都选入模型,进行向后法回归,回归的结果如上:
对于被调查的银行客户是否拖欠的参数估计的结果x1、x2、x3、x5、x6的p值都不显著,向后法都剔除了,最后剩下变量x4,说明该系数显著,为银行客户的收入,与因变量Y拖欠是正相关的,这与事实是相符的,说明银行客户收入越高就越不会贷款拖欠。
Logistic函数表达式:
ln p
1-p
=-2.3979+3.0910x4
OddsRatioEstimatesPoint 95%Wald
Effect Estimate ConfidenceLimitsx4 22.041 1.540 314.291
2.机会比例结果分析:
X4的机会比率为22.041,表示收入增加一单位,银行客户会拖欠的概率会增加4.1%。
3.预测
上面已经求了Y与Xi之间的关系,但是根据求出的logistic函数,我们只能求出患此病的概率,不能确定Y的值为0还是1,所以我们需要确定一个切割垫。
当概率大于切割点是,Y=1;当概率小于切割点是,Y=0。
确定切割点的方法有很多,但是我们在这里使用最常用的ROC曲线法。
四、实例分析
通过上面对模型的诊断、补救,检验以及预测等过程,我们可以确定银行客户贷款拖欠模型为:
ln p
1-p
=-2.3979+3.0910x4
此模型说明这种银行客户贷款拖欠会随着收入增加而减少。
银行客户贷款在不同的地方有很大差异,我们还可以详细调查这种差异是由哪些因素引起的
(如:
生活背景、家庭环境、以及消费水平等),从而采取更有效的措施预防和控制这种贷款拖欠问题。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 logistic 模型 银行 客户 违约 问题 研究