书签分享收藏举报版权申诉 / 38

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx

统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx

文档编号：4643159
上传时间：2023-05-03
格式：DOCX
页数：38
大小：1.38MB

《统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx》由会员分享，可在线阅读，更多相关《统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx（38页珍藏版）》请在冰点文库上搜索。

统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx

11.6

（1）编辑数据集，命名为linehuigui4.dat

输入命令scattercsptGDP,xlabel（#3,grid）ylabel（#3,grid），得到如下散点图，可以看到，时间和距离是正线性相关的关系。

（2）输入命令corcsptGDP计算相关系数，得下图：

可见，r=0.9981，可见人均消费水平和人均GDP之间存在高度的正相关性。

（3）输入命令regcsptGDP得到下图：

可得线性函数（GDP为自变量，cspt为因变量）：

y=0.3086827x+734.6928,即β0=734.6928，表示回归直线的截距为734.6928；

β1=0.3086827，表示人均GDP（x）变化1元引起人均消费水平（y）的变化为0.3086827元。

（4）由（3）得到的结果可得R2=0.9963，判定系数R2测度了回归直线对观测数据的拟合程度，即在人均消费水平的变差中，有99.63%可以由人均消费水平与人均GDP之间的线性关系解释，或者说，在人均消费水平取值的变动中，有99.63%由人均GDP决定。

（5）由（3）得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<

α=0.05，故拒绝原假设，即人均消费水平和人均GDP之间存在显著的正相关性。

（6）x=5000时，E（y）=0.3086827*5000+734.6928=2278.1063。

（7）x=5000时，输入命令predictnlPT=predict（xb）,ci（lbub）l（95），得到各人均GDP水平下的置信区间，如下图：

输入如下命令，得到置信区间和预测区间示意图：

predict

yhat

stdp,

stdp

stdf,

stdf

generate

zl

=

-

invttail（5,0.025）*stdp

zu=

+

yl

invttail（5,0.025）*stdf

yu

invttail（5,0.025）*stdf

twoway

（lfitci

cspt

GDP,

level（95））

（scatter

GDP）

（line

zu

pstyle（p2

p2

p3

p3）

sort）

取cspt=y，GDP=x，y0为x0=5000的预测值，x1为GDP平均值，x2=（x0-x1）^2，x3=sum（（x-x1）^2）

Se=MSE=SSEn-2=247.3，t0.0255=2.7764，

y0=0.3086827*5000+734.6928=2278.1063，

egenx1=mean（x），得到x1=12248.429，

genx2=（5000-12248.429）^2，得到x2=52539722.968，

egenx3=sum（（x-x1）^2），得到x3=854750849.7143

displayy0+2.7764*247.3*sqrt（1/7+x2/x3），得zu=2588.4671

displayy0-2.7764*247.3*sqrt（1/7+x2/x3），得zl=1967.7455

displayy0+2.7764*247.3*sqrt（1+1/7+x2/x3），得yu=3031.5972

displayy0+2.7764*247.3*sqrt（1+1/7+x2/x3），得yl=1524.6154

即人均GDP为5000元时，人均消费水平95%的置信区间为[1967.7455,2588.4671]，预测区间为[1524.6154,3031.5972]。

11.7

（1）编辑数据集，命名为linehuigui5.dat

输入命令scattercmpltspercent,xlabel（#5,grid）ylabel（#5,grid），得到如下散点图，可以看到，时间和距离是负线性相关的关系。

（2）输入命令regcmpltspercent得到下图：

可得线性函数（percent为自变量，cmplts为因变量）：

y=-4.700623x+430.1892,即β0=430.1892，表示回归直线的截距为430.1892；

β1=-4.700623，表示航班正点率percent提高1%使投诉次数cmplts的减少-4.700623次。

（3）由

（2）得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<

α=0.05，故拒绝原假设，即航班正点率percent是投诉次数cmplts的一个显著因素（或者输入testpercent=0）。

（4）x=80时，E（y）=-4.700623*80+430.1892=54.13936次。

（5）x=80时，输入命令predictnlPT=predict（xb）,ci（lbub）l（95），得到各航班正点率水平下的置信区间，如下图：

invttail（8,0.025）*stdp

invttail（8,0.025）*stdf

twoway（lfitcicmpltspercent,level（95））（scattercmpltspercent）（linezlzuylyupercent,pstyle（p2p2p3p3）sort）

取cmplts=y，percent=x，y0为x0=80的预测值，x1为percent平均值，x2=（x0-x1）^2，x3=sum（（x-x1）^2）

Se=MSE=SSEn-2=18.887，t0.0258=2.3060，

y0=-4.700623*80+430.1892=54.13936，

genx2=（80-75.86）^2，得到x2=17.1396，

egenx3=sum（（x-x1）^2），得到x3=397.024

displayy0+2.3060*18.887*sqrt（1/10+x2/x3），得zu=70.619033

displayy0-2.3060*18.887*sqrt（1/10+x2/x3），得zl=37.659687

displayy0+2.3060*18.887*sqrt（1+1/10+x2/x3），得yu=100.7063

displayy0-2.3060*18.887*sqrt（1+1/10+x2/x3），得yl=7.5724171

即航班正点率为80%时，投诉次数的95%的置信区间为[37.659687,70.619033]，预测区间为[7.5724171,100.7063]。

11.8

（1）打开一张EXCEL表格，输入数据如下：

（2）数据｜分析｜数据分析｜回归，弹出回归对话框并设置如下：

（3）单击“确定”得如下输出结果：

SUMMARYOUTPUT

回归统计

MultipleR

0.79508

RSquare

0.632151

AdjustedRSquare

0.611715

标准误差

2.685819

观测值

20

方差分析

df

SS

MS

F

SignificanceF

回归分析

1

223.1403

30.93318

2.79889E-05

残差

18

129.8452

7.213622

总计

19

352.9855

Coefficients

tStat

P-value

Lower95%

Upper95%

下限95.0%

上限95.0%

Intercept

49.31768

3.805016

12.96123

1.45E-10

41.32363505

57.31172

41.323635

XVariable1

0.249223

0.04481

5.561761

2.8E-05

0.155080305

0.343365

0.1550803

Excel输出的回归结果包括以下几个部分：

第一部分是“回归统计”，这部分给出了回归分析中的一些常用统计量，

包括表中复相关系数MultipleR=0.79508，它是度量复相关程度的指标，取值[0,1]之间，取值越大，表明要素或变量之间的线性相关程度越密切；

判定系数RSquare=0.632151，表示有63.2151%的出租率可以由每平方米月租金之间的线性关系来解释；

调整的决定系数AdjustedRSquare=0.611715，表示调整后的判定系数使用了自由度为一个权重因子，即使解释变量增加，如果它与被解释变量无关，则调整后的判定系数不会增加会减少；

标准误差，表示各测量值误差的平方的平均值的平方根，故又称为均方误差的平方根，在这里取2.685819（已验证，该值即为Se）；

观测值个数19。

第二部分是“方差分析”，这部分给出的是回归分析的方差分析表，包括自由度df、回归平方和SSR=223.1403、残差平方和SSE=129.8452、总平方和SST=352.9855、回归的均方根223.1403、残差的均方根MSE=7.213622；

检验统计量F=SSR/1SSE/（n-2）=MSRMSE=30.93318；

F检验的显著性水平SignificanceF=2.79889E-05，用于线性关系的显著性检验，说明两个变量之间的线性是否显著；

第三部分是参数估计的有关内容。

包括

回归方程的截距β0=49.31768；

斜率β1=0.249223，表示月租金变化1元引起的出租率变化24.9223%；

截距的标准误差3.805016，斜率的标准误差0.04481；

用于回归系数检验的t统计量及对应的P值，说明回归系数的显著性，即月租金和出租率两者之间是否有显著关系；

截距和斜率的置信区间[Lower95%,Upper95%]。

11.9

（1）方差分析表

1602708.6

399.1

2.17E-09

10

40158.07

4015.807

11

1642866.67

（2）R2=SSRSST=1602708.61642866.67=0.975556，即汽车销售量的变差中有97.556%由广告费用的变动引起。

（3）汽车销售量与广告费用的相关系数r=R2=0.975556=0.98770238，表明汽车销售量与广告费用有高度的相关性。

（4）由题意得，y=1.420211x+363.6891。

β0=363.6891，表示回归直线的截距为363.6891；

β1=1.420211，表示广告费用提高1单位使汽车销售量改变1.420211单位。

（5）线性关系显著性检验的F0。

051,9=399.1，其对应的P=SignificanceF=0.00000000217<

0.05，故拒绝原假设，即汽车销售量与广告费用之间的线性关系显著。

11．10

（1）编辑数据集，命名为linehuigui7.dat

输入命令scatteryx，得到如下散点图，可以看到，y和x是负线性相关的关系。

（2）输入命令regyx得到下图：

可得线性函数：

y=2.302932x+13.62541,即β0=13.62541，表示回归直线的截距为13.62541；

β1=2.302932，表示x变化1单位使使y变化2.302932单位。

（3）输入predictyhat

gene=x-yhat

得到残差e，见下图：

由

（2）的结果可得，判定系数R2=0.9373，即y的变差93.73%由x引起，y和x之间有较强的线性关系；

估计标准误差Se=MSE=3.8092；

由于R2=0.9373，y和x之间有较强的线性关系，直线拟合得较好。

11.11

（1）F=SSR/1SSE/（n-2）=MSRMSE=60/140/（20-2）=27；

（2）F0.051,18=4.414；

（3）由F>

F0.051,18，故拒绝原假设；

（4）r=R2=0.9373=-0.96814255；

（5）由（3）知，x与y之间有显著的线性关系。

11.12由题意得，12取y0为x0=4的预测值，x1为x平均值，x2=（x0-x1）^2，x3=sum（（x-x1）^2）

Se=1.0，t0.02518=2.1009，

y0=3*4+5=17，

x1=2，

x2=4，

x3=20

display17+2.1009*1.0*sqrt（1/20+4/20），得zu=18.05045

display17-2.1009*1.0*sqrt（1/20+4/20），得zl=15.94955

display17+2.1009*1.0*sqrt（1+1/20+4/20），得yu=19.348878

display17-2.1009*1.0*sqrt（1+1/20+4/20），得yl=14.651122

即x为4元时，y的95%的置信区间为[15.94955,18.05045]，预测区间为[14.651122,19.348878]。

11.13

（1）编辑数据集，命名为linehuigui8.dat

y=15.23977x-46.29181,即β0=-46.29181，表示回归直线的截距为-46.29181；

β1=15.23977，表示x变化1单位使使y变化15.23977单位。

（3）输入如下命令，得到置信区间示意图：

invttail（20,0.025）*stdp

twoway（lfitciyx,level（95））（scatteryx）（linezlzux,pstyle（p2p2p3p3）sort）

取y0为x0=40的预测值，x1为x平均值，x2=（x0-x1）^2，x3=sum（（x-x1）^2）

Se=MSE=SSEn-2=108.76，t0.0256=2.4469，

y0=15.23977*40-46.29181=563.29899，

egenx1=mean（x），得到x1=24.9375，

genx2=（40-24.9375）^2，得到x2=226.87890625，

egenx3=sum（（x-x1）^2），得到x3=2692.11875

displayy0+2.4469*108.76*sqrt（1/8+x2/x3），得zu=685.04208

displayy0-2.4469*108.76*sqrt（1/8+x2/x3），得zl=441.5559

即x为40元时，y的95%的置信区间为[441.5559,685.04208]。

11.14编辑数据集，命名为linehuigui9.dat

输入命令scattere1v1得图：

可见对所有的x值，ε的方差都相同，假定的描述变量x和y之间的关系模型是合理的，该残差图对应的模型是满意的模式；

输入命令scattere2v4得图：

可见该残差图对应的模型不合适，应考虑曲线回归或多元回归模型。

11.15

（1）编辑数据集，命名为linehuigui10.dat

输入命令scatteryx，得到如下散点图，可以看到，销售额和广告费用是正线性相关的关系。

输入命令regyx得到下图：

y=1.547478x+29.39911,即β0=29.39911，表示回归直线的截距为29.39911；

β1=1.547478，表示广告支出费用提高1万元使销售额提高1.547478万元。

（2）由

（1）得到的结果可得回归方程线性关系的F检验值11.15对应的检验P值为0.0206<

α=0.05，故拒绝原假设，即销售额和广告费用之间存在显著的正相关性。

gene=y-yhat

scatterex

输入genz=e/7.8775

scatterzx

得到标准化残差图如下：

可见标准化残差都在-2到2之间，对所有的x值，ε的方差都相同，假定的描述变量x和y之间的关系模型是合理的，该残差图对应的模型是满意的模式。

（4）由（3）知虽然爱关于误差项ε的假设被满足了，可是通过散点图的走势可以发现，如果用指数型曲线模拟效果会更好。

11.16

（1）编辑数据集，命名为linehuigui11.dat

输入命令scatteryx，得到如下散点图，可以看到，销售量和广告费用是正线性相关的关系。

y=0.1958404x+4.068466,即β0=4.068466，表示回归直线的截距为4.068466；

β1=0.1958404，表示广告支出费用提高1万元使销售量提高0.1958404万箱。

（2）输入predictyhat

得到残差图如下

最后一点（120.0,36.3）对应的标准化残差较大，接近Ze=2，该点为异常点。

取x1为x平均值，x2=（x-x1）^2，x3=sum（（x-x1）^2）

egenx1=mean（x），得到x1=40.5，

genx2=（x-x1）^2，

egenx3=sum（（x-x1）^2），得到x3=19176.64

genx4=1/10+x2/x3

genx5=1/10

genx6=x4-x5

scatterx6x

由上图可知，倒数最大的一个点（120.0,36.3）具有高杠杆率，该点是有影响的观测值。

（3）有影响的观测值不一定是一个异常值。

二、多元线性回归

12.1

（1）编辑数据集，命名为mlinehuigui1.dat

输入命令regyx1x2得到下图：

y=-0.0497143x1+1.928169x2+25.0287。

当x1=200，x2=7时，y=-0.0497143*

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计学第四版贾俊平人大回归时间序列 stata

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx
链接地址：https://www.bingdoc.com/p-4643159.html

统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx

热门标签