书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 实验三统计回归模型Matlab求解讲课稿.docx

实验三统计回归模型Matlab求解讲课稿.docx

文档编号：10100793
上传时间：2023-05-23
格式：DOCX
页数：14
大小：130.60KB

《实验三统计回归模型Matlab求解讲课稿.docx》由会员分享，可在线阅读，更多相关《实验三统计回归模型Matlab求解讲课稿.docx（14页珍藏版）》请在冰点文库上搜索。

实验三统计回归模型Matlab求解讲课稿.docx

实验三统计回归模型Matlab求解讲课稿

实验三统计回归模型Matlab求解

实验三：

统计回归模型Matlab求解

一、实验目的

[1]通过范例学习建立统计回归的数学模型以及求解全过程；

[2]熟悉MATLAB求解统计回归模型的过程。

二、实验原理

问题:

一家技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系，要建立一个数学模型，以便分析公司人事策略的合理性，并作为新聘用人员薪金的参考。

他们认为目前公司人员的薪金总体上是合理的，可以作为建模的依据，于是调查来46名软件开发人员的档案资料，如表4，其中资历一列指从事专业工作的年数，管理一列中1表示管理人员，0表示非管理人员，教育一列中1表示中学程度，2表示大学程度，3表示更高程度（研究生）

编号

薪金

资历

管理

教育

编号

薪金

资历

管理

教育

01

13876

1

24

22884

6

1

2

02

11608

1

0

3

25

16978

7

1

03

18701

1

3

26

14803

8

0

2

04

11283

1

0

2

27

17404

8

1

05

11767

1

0

3

28

22184

8

1

3

06

20872

2

1

2

29

13548

8

0

1

07

11772

2

0

2

30

14467

10

0

1

08

10535

2

0

1

31

15942

10

0

2

09

12195

2

0

3

32

23174

10

1

3

10

12313

3

0

2

33

23780

10

1

2

11

14975

3

1

34

25410

11

1

2

12

21371

3

1

2

35

14861

11

0

1

13

19800

3

1

3

36

16882

12

0

2

14

11417

4

0

1

37

24170

12

1

3

15

20263

4

1

3

38

15990

13

0

1

16

13231

4

0

3

39

26330

13

1

2

17

12884

4

0

2

40

17949

14

0

2

18

13245

5

0

2

41

25685

15

1

3

19

13677

5

0

3

42

27837

16

1

2

20

15965

5

1

43

18838

16

0

2

21

12366

6

0

1

44

17483

16

0

1

22

21352

6

1

3

45

19207

17

0

2

23

13839

6

0

2

46

19364

20

0

1

分析与假设按照常识，薪金自然随着资历的增长而增加，管理人员的薪金应高于非管理人员，教育程度越高薪金也越高。

薪金记作y，资历记作x1，为了表示是否管理人员，定义：

.

为了表示3种教育程度，定义：

这样，中学用x3=1，x4=0表示，大学用x3=0,x4=1表示，研究生则用x3=0，x4=0表示。

假定资历对薪金的作用是线性的，即资历每加一年，薪金的增长是常数；管理责任、教育程度、资历诸因素之间没有交互作用，建立线性回归模型。

基本模型薪金y与资历x1,管理责任x2，教育程度x3，x4之间的多元线性回归模型为

（1）

其中

是待估计的回归系数，

是随机误差。

MATLAB的统计工具箱基本函数regress:

[b,bint,r,rint,stats]=regress（y,x,alpha）

输入:

y:

n维数据向量

x:

n⨯5数据矩阵,第1列为全1向量

alpha:

置信水平,0.05

输出:

b:

参数估计值

bint:

b的置信区间

r:

残差向量y-xb

rint:

r的置信区间

stats:

第一个数为残差平方即回归方程之决定系数R^2（R为相关系数）越接近1,回归方程显著；第二个数为统计量F检验的值，越大回归方程越显著；第三个数为F对应概率P，越接近零越好；第四个数是误差项的方差估计值

在MATLAB命令窗口输入代码:

y=[13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;14467;15942;23174;23780;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346];

x1=[1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;10;11;11;12;12;13;13;14;15;16;16;16;17;20];

x2=[1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;1;0;0;1;0;1;0;1;1;0;0;0;0];

x3=[1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1];

x4=[0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;1;0;1;0;0;1;1;0;1;1;0;1;0];

xb5=[ones（46,1）,x1,x2,x3,x4];

[b,bint,r,rint,stats]=regress（y,xb5）

可以得到回归系数及其置信区间（置信水平a=0.05）、检验统计量R2，F，p结果，

结果分析:

R2=0.957，即因变量（薪金）的95.7%可由模型确定，F值远远超过F检验的临界值，p远小于a，因而模型

（1）从整体来看是可用的。

比如，利用模型可以估计（或预测）一个大学毕业、有2年资历、管理人员的薪金为

模型中各个回归系数的含义可初步解释如下：

x1的系数为546，说明资历每增加1年，薪金增长546；x2的系数为6883，说明管理人员的薪金比非管理人员多6883；x3的系数为-2994，说明中学程度的薪金比研究生少2994；x4的系数为148，说明大学程度的薪金比研究生多148，但是应该注意到

的置信区间包含零点，所以这个系数的解释是不可靠的。

需要指出，以上理解是就平均值来说，并且，一个因素改变引起的因变量的变化量，都是在其它因素需不变的条件下才成立的。

进一步的讨论

的置信区间包含零点，说明基本模型

（1）存在缺点。

为寻找改进的方向，常用残差分析法（残差

指薪金的实际值y与用模型估计的薪金

之差，是模型

（1）中随机误差

的估计值，这里用了同一个符号）。

为了对残差进行分析，作图给出

与资历x1的关系（图1），

%图1

yj=11032+546*x1+6883*x2+（-2994*x3）+148*x4;

eb=y-yj;

plot（x1,eb,'r+'）

图1:

e与资历x1的关系

从图1中看出，残差大概分成3个水平，这是由于6种管理-教育组合混在一起，在模型中未被正确反映的结果

我们将影响因素分成资历与管理——教育组合两类，管理——教育组合的定义如下表

把组合标号1，2，3，4，5，6作为变量X5，则由原数据可得

x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];

作图给出

与管理x2——教育x3,x4组合间的关系（图2）。

%图2

x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];

plot（x5,eb,'r+'）

图2:

e与管理—教育组合的关系

从图2看，对于前4个管理——教育组合，残差或者全为正，或者全为负，也表明——教育组合在模型中处理不当。

在模型

（1）中管理责任和教育程度是分别起作用的，事实上，二者可能起着交互作用，如大学程度的管理人员的薪金会比二者分别得薪金之和高一点。

以上分析提示我们，应在基本模型

（1）中增加管理x2与教育x3,x4的交互项，建立新的回归模型。

更好的模型增加x2与x3,x4的交互项后，模型记作

利用MATLAB的统计工具箱

xb7=[ones（46,1）,x1,x2,x3,x4,x2.*x3,x2.*x4];

[b,bint,r,rint,stats]=regress（y,xb7）

得到的结果:

可知，模型

（2）的

和F值都比模型

（1）中的有所改进，并且所有回归系数的置信区间都不含零点，表明模型

（2）是完全可用的。

与模型

（1）类似，做模型

（2）的两个残差分析图（图11，图12），可以看出，已经消除了图1和图2中的不正常现象，这也说明了模型

（2）的适用性。

%图11

yj=11204+497*x1+7048*x2-1727*x3-348*x4-3071*x2.*x3+1836*x2.*x4;

eb=y-yj;

plot（x1,eb,'r+'）

%图12

x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1];

plot（x5,eb,'r+'）

从图11、图12还可以发现一个异常点：

具有10年策略、大学程度的管理人员（从表4可以查出是33号），他的实际薪金明显低于模型的估计值，也明显低于他有类似经历的其他人的薪金。

这可能是由于我们未知的原因造成的。

为了是个别的数据不致影响整个模型，应该将这个异常数据去掉，对模型

（2）重新估计回归系数，得到的结果如表8，残差分析图见图13，图14。

可以看出，去掉异常数据结果又有改善。

%表8

y=[13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;14467;15942;23174;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346];

x1=[1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;11;11;12;12;13;13;14;15;16;16;16;17;20];

x2=[1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;0;0;1;0;1;0;1;1;0;0;0;0];

x3=[1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1];

x4=[0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;0;1;0;0;1;1;0;1;1;0;1;0];

x5=[2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;1;3;6;1;4;3;6;4;3;1;3;1];

xb8=[ones（45,1）,x1,x2,x3,x4,x2.*x3,x2.*x4];

[b,bint,r,rint,stats]=regress（y,xb8）

%图13

yj=11200+498*x1+7041*x2-1737*x3-356*x4-3056*x2.*x3+1997*x2.*x4;

eb=y-yj;

plot（x1,eb,'r+'）

%图14

plot（x5,eb,'r+'）

三、实验内容

（1）解答实验原理中的问题:

一家技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系，要建立一个数学模型，以便分析公司人事策略的合理性，并作为新聘用人员薪金的参考。

他们认为目前公司人员的薪金总体上是合理的，可以作为建模的依据，于是调查来46名软件开发人员的档案资料，如表4，其中资历一列指从事专业工作的年数，管理一列中1表示管理人员，0表示非管理人员，教育一列中1表示中学程度，2表示大学程度，3表示更高程度（研究生）

编号

薪金

资历

管理

教育

编号

薪金

资历

管理

教育

01

13876

1

24

22884

6

1

2

02

11608

1

0

3

25

16978

7

1

03

18701

1

3

26

14803

8

0

2

04

11283

1

0

2

27

17404

8

1

05

11767

1

0

3

28

22184

8

1

3

06

20872

2

1

2

29

13548

8

0

1

07

11772

2

0

2

30

14467

10

0

1

08

10535

2

0

1

31

15942

10

0

2

09

12195

2

0

3

32

23174

10

1

3

10

12313

3

0

2

33

23780

10

1

2

11

14975

3

1

34

25410

11

1

2

12

21371

3

1

2

35

14861

11

0

1

13

19800

3

1

3

36

16882

12

0

2

14

11417

4

0

1

37

24170

12

1

3

15

20263

4

1

3

38

15990

13

0

1

16

13231

4

0

3

39

26330

13

1

2

17

12884

4

0

2

40

17949

14

0

2

18

13245

5

0

2

41

25685

15

1

3

19

13677

5

0

3

42

27837

16

1

2

20

15965

5

1

43

18838

16

0

2

21

12366

6

0

1

44

17483

16

0

1

22

21352

6

1

3

45

19207

17

0

2

23

13839

6

0

2

46

19364

20

0

1

（2）某大型牙膏制造企业为了更好地拓展产品市场，有效地管理库存，公司董事会要求销售部门根据市场调查，找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系，从而预测出在不同价格和广告费用下的销售量。

为此，销售部的研究人员收集了过去30个销售周期（每个销售周期为4周）公司生产的牙膏的销售量、销售价格、投入的广告费用，以及同期其它厂家生产的同类牙膏的市场平均销售价格，见表1（其中价格差指其它厂家平均价格与公司销售价格之差）。

试根据这些数据建立一个数学模型，分析牙膏销售量与其它因素的关系，为制订价格策略和广告投入策略提供数量依据。

表1牙膏销售量与销售价格、广告费用等数据

销售

周期

公司销售价格

（元）

其他厂家平均价格（元）

价格差

（元）

广告费用

（百万元）

销售量

（百万支）

1

3.85

3.80

-0.05

5.5

7.38

2

3.75

4.00

0.25

6.75

8.51

3

3.70

4.30

0.60

7.25

9.52

4

3.60

3.70

0.00

5.50

7.50

5

3.60

3.85

0.25

7.00

9.33

6

3.6

3.80

0.20

6.50

8.28

7

3.6

3.75

0.15

6.75

8.75

8

3.8

3.85

0.05

5.25

7.87

9

3.8

3.65

-0.15

5.25

7.10

10

3.85

4.00

0.15

6.00

8.00

11

3.90

4.10

0.20

6.50

7.89

12

3.90

4.00

0.10

6.25

8.15

13

3.70

4.10

0.40

7.00

9.10

14

3.75

4.20

0.45

6.90

8.86

15

3.75

4.10

0.35

6.80

8.90

16

3.80

4.10

0.30

6.80

8.87

17

3.70

4.20

0.50

7.10

9.26

18

3.80

4.30

0.50

7.00

9.00

19

3.70

4.10

0.40

6.80

8.75

20

3.80

3.75

-0.05

6.50

7.95

21

3.80

3.75

-0.05

6.25

7.65

22

3.75

3.65

-0.10

6.00

7.27

23

3.70

3.90

0.20

6.50

8.00

24

3.55

3.65

0.10

7.00

8.50

25

3.60

4.10

0.50

6.80

8.75

26

3.70

4.25

0.60

6.80

9.21

27

3.75

3.65

-0.05

6.50

8.27

28

3.75

0.00

5.75

7.67

29

3.80

3.85

0.05

5.80

7.93

30

3.70

4.25

0.55

6.80

9.26

提示:

x1=[-0.050.250.600.000.250.200.150.05-0.150.150.200.100.400.450.350.300.500.500.40-0.05-0.05-0.010.200.100.500.60-0.050.000.050.55];

x2=[5.56.757.255.507.006.506.755.255.256.006.506.257.006.906.806.807.107.006.806.506.256.006.507.006.806.806.505.755.806.80];

y=[7.388.519.527.509.338.288.757.877.108.007.898.159.108.868.908.879.269.008.757.957.657.278.008.508.759.218.277.677.939.26]';

X=[ones（30,1）x1'x2'（x2.^2）'];

四、实验心得

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 实验三统回归模型 Matlab 求解讲课

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：实验三统计回归模型Matlab求解讲课稿.docx
链接地址：https://www.bingdoc.com/p-10100793.html

实验三统计回归模型Matlab求解讲课稿.docx

热门标签