实验三统计回归模型Matlab求解讲课稿.docx
- 文档编号:10100793
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:14
- 大小:130.60KB
实验三统计回归模型Matlab求解讲课稿.docx
《实验三统计回归模型Matlab求解讲课稿.docx》由会员分享,可在线阅读,更多相关《实验三统计回归模型Matlab求解讲课稿.docx(14页珍藏版)》请在冰点文库上搜索。
实验三统计回归模型Matlab求解讲课稿
实验三统计回归模型Matlab求解
实验三:
统计回归模型Matlab求解
一、实验目的
[1]通过范例学习建立统计回归的数学模型以及求解全过程;
[2]熟悉MATLAB求解统计回归模型的过程。
二、实验原理
问题:
一家技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘用人员薪金的参考。
他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查来46名软件开发人员的档案资料,如表4,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)
编号
薪金
资历
管理
教育
编号
薪金
资历
管理
教育
01
13876
1
1
1
24
22884
6
1
2
02
11608
1
0
3
25
16978
7
1
1
03
18701
1
1
3
26
14803
8
0
2
04
11283
1
0
2
27
17404
8
1
1
05
11767
1
0
3
28
22184
8
1
3
06
20872
2
1
2
29
13548
8
0
1
07
11772
2
0
2
30
14467
10
0
1
08
10535
2
0
1
31
15942
10
0
2
09
12195
2
0
3
32
23174
10
1
3
10
12313
3
0
2
33
23780
10
1
2
11
14975
3
1
1
34
25410
11
1
2
12
21371
3
1
2
35
14861
11
0
1
13
19800
3
1
3
36
16882
12
0
2
14
11417
4
0
1
37
24170
12
1
3
15
20263
4
1
3
38
15990
13
0
1
16
13231
4
0
3
39
26330
13
1
2
17
12884
4
0
2
40
17949
14
0
2
18
13245
5
0
2
41
25685
15
1
3
19
13677
5
0
3
42
27837
16
1
2
20
15965
5
1
1
43
18838
16
0
2
21
12366
6
0
1
44
17483
16
0
1
22
21352
6
1
3
45
19207
17
0
2
23
13839
6
0
2
46
19364
20
0
1
分析与假设按照常识,薪金自然随着资历的增长而增加,管理人员的薪金应高于非管理人员,教育程度越高薪金也越高。
薪金记作y,资历记作x1,为了表示是否管理人员,定义:
.
为了表示3种教育程度,定义:
这样,中学用x3=1,x4=0表示,大学用x3=0,x4=1表示,研究生则用x3=0,x4=0表示。
假定资历对薪金的作用是线性的,即资历每加一年,薪金的增长是常数;管理责任、教育程度、资历诸因素之间没有交互作用,建立线性回归模型。
基本模型薪金y与资历x1,管理责任x2,教育程度x3,x4之间的多元线性回归模型为
(1)
其中
是待估计的回归系数,
是随机误差。
MATLAB的统计工具箱基本函数regress:
[b,bint,r,rint,stats]=regress(y,x,alpha)
输入:
y:
n维数据向量
x:
n⨯5数据矩阵,第1列为全1向量
alpha:
置信水平,0.05
输出:
b:
参数估计值
bint:
b的置信区间
r:
残差向量y-xb
rint:
r的置信区间
stats:
第一个数为残差平方即回归方程之决定系数R^2(R为相关系数)越接近1,回归方程显著;第二个数为统计量F检验的值,越大回归方程越显著;第三个数为F对应概率P,越接近零越好;第四个数是误差项的方差估计值
在MATLAB命令窗口输入代码:
y=[13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;14467;15942;23174;23780;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346];
x1=[1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;10;11;11;12;12;13;13;14;15;16;16;16;17;20];
x2=[1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;1;0;0;1;0;1;0;1;1;0;0;0;0];
x3=[1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1];
x4=[0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;1;0;1;0;0;1;1;0;1;1;0;1;0];
xb5=[ones(46,1),x1,x2,x3,x4];
[b,bint,r,rint,stats]=regress(y,xb5)
可以得到回归系数及其置信区间(置信水平a=0.05)、检验统计量R2,F,p结果,
结果分析:
R2=0.957,即因变量(薪金)的95.7%可由模型确定,F值远远超过F检验的临界值,p远小于a,因而模型
(1)从整体来看是可用的。
比如,利用模型可以估计(或预测)一个大学毕业、有2年资历、管理人员的薪金为
模型中各个回归系数的含义可初步解释如下:
x1的系数为546,说明资历每增加1年,薪金增长546;x2的系数为6883,说明管理人员的薪金比非管理人员多6883;x3的系数为-2994,说明中学程度的薪金比研究生少2994;x4的系数为148,说明大学程度的薪金比研究生多148,但是应该注意到
的置信区间包含零点,所以这个系数的解释是不可靠的。
需要指出,以上理解是就平均值来说,并且,一个因素改变引起的因变量的变化量,都是在其它因素需不变的条件下才成立的。
进一步的讨论
的置信区间包含零点,说明基本模型
(1)存在缺点。
为寻找改进的方向,常用残差分析法(残差
指薪金的实际值y与用模型估计的薪金
之差,是模型
(1)中随机误差
的估计值,这里用了同一个符号)。
为了对残差进行分析,作图给出
与资历x1的关系(图1),
%图1
yj=11032+546*x1+6883*x2+(-2994*x3)+148*x4;
eb=y-yj;
plot(x1,eb,'r+')
图1:
e与资历x1的关系
从图1中看出,残差大概分成3个水平,这是由于6种管理-教育组合混在一起,在模型中未被正确反映的结果
我们将影响因素分成资历与管理——教育组合两类,管理——教育组合的定义如下表
把组合标号1,2,3,4,5,6作为变量X5,则由原数据可得
x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];
作图给出
与管理x2——教育x3,x4组合间的关系(图2)。
%图2
x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];
plot(x5,eb,'r+')
图2:
e与管理—教育组合的关系
从图2看,对于前4个管理——教育组合,残差或者全为正,或者全为负,也表明——教育组合在模型中处理不当。
在模型
(1)中管理责任和教育程度是分别起作用的,事实上,二者可能起着交互作用,如大学程度的管理人员的薪金会比二者分别得薪金之和高一点。
以上分析提示我们,应在基本模型
(1)中增加管理x2与教育x3,x4的交互项,建立新的回归模型。
更好的模型增加x2与x3,x4的交互项后,模型记作
利用MATLAB的统计工具箱
xb7=[ones(46,1),x1,x2,x3,x4,x2.*x3,x2.*x4];
[b,bint,r,rint,stats]=regress(y,xb7)
得到的结果:
可知,模型
(2)的
和F值都比模型
(1)中的有所改进,并且所有回归系数的置信区间都不含零点,表明模型
(2)是完全可用的。
与模型
(1)类似,做模型
(2)的两个残差分析图(图11,图12),可以看出,已经消除了图1和图2中的不正常现象,这也说明了模型
(2)的适用性。
%图11
yj=11204+497*x1+7048*x2-1727*x3-348*x4-3071*x2.*x3+1836*x2.*x4;
eb=y-yj;
plot(x1,eb,'r+')
%图12
x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];
plot(x5,eb,'r+')
从图11、图12还可以发现一个异常点:
具有10年策略、大学程度的管理人员(从表4可以查出是33号),他的实际薪金明显低于模型的估计值,也明显低于他有类似经历的其他人的薪金。
这可能是由于我们未知的原因造成的。
为了是个别的数据不致影响整个模型,应该将这个异常数据去掉,对模型
(2)重新估计回归系数,得到的结果如表8,残差分析图见图13,图14。
可以看出,去掉异常数据结果又有改善。
%表8
y=[13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;14467;15942;23174;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346];
x1=[1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;11;11;12;12;13;13;14;15;16;16;16;17;20];
x2=[1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;0;0;1;0;1;0;1;1;0;0;0;0];
x3=[1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1];
x4=[0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;0;1;0;0;1;1;0;1;1;0;1;0];
x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;1;3;6;1;4;3;6;4;3;1;3;1];
xb8=[ones(45,1),x1,x2,x3,x4,x2.*x3,x2.*x4];
[b,bint,r,rint,stats]=regress(y,xb8)
%图13
yj=11200+498*x1+7041*x2-1737*x3-356*x4-3056*x2.*x3+1997*x2.*x4;
eb=y-yj;
plot(x1,eb,'r+')
%图14
plot(x5,eb,'r+')
三、实验内容
(1)解答实验原理中的问题:
一家技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘用人员薪金的参考。
他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查来46名软件开发人员的档案资料,如表4,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)
编号
薪金
资历
管理
教育
编号
薪金
资历
管理
教育
01
13876
1
1
1
24
22884
6
1
2
02
11608
1
0
3
25
16978
7
1
1
03
18701
1
1
3
26
14803
8
0
2
04
11283
1
0
2
27
17404
8
1
1
05
11767
1
0
3
28
22184
8
1
3
06
20872
2
1
2
29
13548
8
0
1
07
11772
2
0
2
30
14467
10
0
1
08
10535
2
0
1
31
15942
10
0
2
09
12195
2
0
3
32
23174
10
1
3
10
12313
3
0
2
33
23780
10
1
2
11
14975
3
1
1
34
25410
11
1
2
12
21371
3
1
2
35
14861
11
0
1
13
19800
3
1
3
36
16882
12
0
2
14
11417
4
0
1
37
24170
12
1
3
15
20263
4
1
3
38
15990
13
0
1
16
13231
4
0
3
39
26330
13
1
2
17
12884
4
0
2
40
17949
14
0
2
18
13245
5
0
2
41
25685
15
1
3
19
13677
5
0
3
42
27837
16
1
2
20
15965
5
1
1
43
18838
16
0
2
21
12366
6
0
1
44
17483
16
0
1
22
21352
6
1
3
45
19207
17
0
2
23
13839
6
0
2
46
19364
20
0
1
(2)某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。
为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表1(其中价格差指其它厂家平均价格与公司销售价格之差)。
试根据这些数据建立一个数学模型,分析牙膏销售量与其它因素的关系,为制订价格策略和广告投入策略提供数量依据。
表1牙膏销售量与销售价格、广告费用等数据
销售
周期
公司销售价格
(元)
其他厂家平均价格(元)
价格差
(元)
广告费用
(百万元)
销售量
(百万支)
1
3.85
3.80
-0.05
5.5
7.38
2
3.75
4.00
0.25
6.75
8.51
3
3.70
4.30
0.60
7.25
9.52
4
3.60
3.70
0.00
5.50
7.50
5
3.60
3.85
0.25
7.00
9.33
6
3.6
3.80
0.20
6.50
8.28
7
3.6
3.75
0.15
6.75
8.75
8
3.8
3.85
0.05
5.25
7.87
9
3.8
3.65
-0.15
5.25
7.10
10
3.85
4.00
0.15
6.00
8.00
11
3.90
4.10
0.20
6.50
7.89
12
3.90
4.00
0.10
6.25
8.15
13
3.70
4.10
0.40
7.00
9.10
14
3.75
4.20
0.45
6.90
8.86
15
3.75
4.10
0.35
6.80
8.90
16
3.80
4.10
0.30
6.80
8.87
17
3.70
4.20
0.50
7.10
9.26
18
3.80
4.30
0.50
7.00
9.00
19
3.70
4.10
0.40
6.80
8.75
20
3.80
3.75
-0.05
6.50
7.95
21
3.80
3.75
-0.05
6.25
7.65
22
3.75
3.65
-0.10
6.00
7.27
23
3.70
3.90
0.20
6.50
8.00
24
3.55
3.65
0.10
7.00
8.50
25
3.60
4.10
0.50
6.80
8.75
26
3.70
4.25
0.60
6.80
9.21
27
3.75
3.65
-0.05
6.50
8.27
28
3.75
3.75
0.00
5.75
7.67
29
3.80
3.85
0.05
5.80
7.93
30
3.70
4.25
0.55
6.80
9.26
提示:
x1=[-0.050.250.600.000.250.200.150.05-0.150.150.200.100.400.450.350.300.500.500.40-0.05-0.05-0.010.200.100.500.60-0.050.000.050.55];
x2=[5.56.757.255.507.006.506.755.255.256.006.506.257.006.906.806.807.107.006.806.506.256.006.507.006.806.806.505.755.806.80];
y=[7.388.519.527.509.338.288.757.877.108.007.898.159.108.868.908.879.269.008.757.957.657.278.008.508.759.218.277.677.939.26]';
X=[ones(30,1)x1'x2'(x2.^2)'];
四、实验心得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 三统 回归 模型 Matlab 求解 讲课