统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx
- 文档编号:4643159
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:38
- 大小:1.38MB
统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx
《统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx》由会员分享,可在线阅读,更多相关《统计学第四版贾俊平人大-回归与时间序列stataWord文件下载.docx(38页珍藏版)》请在冰点文库上搜索。
11.6
(1)编辑数据集,命名为linehuigui4.dat
输入命令scattercsptGDP,xlabel(#3,grid)ylabel(#3,grid),得到如下散点图,可以看到,时间和距离是正线性相关的关系。
(2)输入命令corcsptGDP计算相关系数,得下图:
可见,r=0.9981,可见人均消费水平和人均GDP之间存在高度的正相关性。
(3)输入命令regcsptGDP得到下图:
可得线性函数(GDP为自变量,cspt为因变量):
y=0.3086827x+734.6928,即β0=734.6928,表示回归直线的截距为734.6928;
β1=0.3086827,表示人均GDP(x)变化1元引起人均消费水平(y)的变化为0.3086827元。
(4)由(3)得到的结果可得R2=0.9963,判定系数R2测度了回归直线对观测数据的拟合程度,即在人均消费水平的变差中,有99.63%可以由人均消费水平与人均GDP之间的线性关系解释,或者说,在人均消费水平取值的变动中,有99.63%由人均GDP决定。
(5)由(3)得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<
α=0.05,故拒绝原假设,即人均消费水平和人均GDP之间存在显著的正相关性。
(6)x=5000时,E(y)=0.3086827*5000+734.6928=2278.1063。
(7)x=5000时,输入命令predictnlPT=predict(xb),ci(lbub)l(95),得到各人均GDP水平下的置信区间,如下图:
输入如下命令,得到置信区间和预测区间示意图:
predict
yhat
stdp,
stdp
stdf,
stdf
generate
zl
=
-
invttail(5,0.025)*stdp
zu=
+
yl
invttail(5,0.025)*stdf
yu
invttail(5,0.025)*stdf
twoway
(lfitci
cspt
GDP,
level(95))
(scatter
GDP)
(line
zu
pstyle(p2
p2
p3
p3)
sort)
取cspt=y,GDP=x,y0为x0=5000的预测值,x1为GDP平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
Se=MSE=SSEn-2=247.3,t0.0255=2.7764,
y0=0.3086827*5000+734.6928=2278.1063,
egenx1=mean(x),得到x1=12248.429,
genx2=(5000-12248.429)^2,得到x2=52539722.968,
egenx3=sum((x-x1)^2),得到x3=854750849.7143
displayy0+2.7764*247.3*sqrt(1/7+x2/x3),得zu=2588.4671
displayy0-2.7764*247.3*sqrt(1/7+x2/x3),得zl=1967.7455
displayy0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yu=3031.5972
displayy0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yl=1524.6154
即人均GDP为5000元时,人均消费水平95%的置信区间为[1967.7455,2588.4671],预测区间为[1524.6154,3031.5972]。
11.7
(1)编辑数据集,命名为linehuigui5.dat
输入命令scattercmpltspercent,xlabel(#5,grid)ylabel(#5,grid),得到如下散点图,可以看到,时间和距离是负线性相关的关系。
(2)输入命令regcmpltspercent得到下图:
可得线性函数(percent为自变量,cmplts为因变量):
y=-4.700623x+430.1892,即β0=430.1892,表示回归直线的截距为430.1892;
β1=-4.700623,表示航班正点率percent提高1%使投诉次数cmplts的减少-4.700623次。
(3)由
(2)得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<
α=0.05,故拒绝原假设,即航班正点率percent是投诉次数cmplts的一个显著因素(或者输入testpercent=0)。
(4)x=80时,E(y)=-4.700623*80+430.1892=54.13936次。
(5)x=80时,输入命令predictnlPT=predict(xb),ci(lbub)l(95),得到各航班正点率水平下的置信区间,如下图:
invttail(8,0.025)*stdp
invttail(8,0.025)*stdf
invttail(8,0.025)*stdf
twoway(lfitcicmpltspercent,level(95))(scattercmpltspercent)(linezlzuylyupercent,pstyle(p2p2p3p3)sort)
取cmplts=y,percent=x,y0为x0=80的预测值,x1为percent平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
Se=MSE=SSEn-2=18.887,t0.0258=2.3060,
y0=-4.700623*80+430.1892=54.13936,
genx2=(80-75.86)^2,得到x2=17.1396,
egenx3=sum((x-x1)^2),得到x3=397.024
displayy0+2.3060*18.887*sqrt(1/10+x2/x3),得zu=70.619033
displayy0-2.3060*18.887*sqrt(1/10+x2/x3),得zl=37.659687
displayy0+2.3060*18.887*sqrt(1+1/10+x2/x3),得yu=100.7063
displayy0-2.3060*18.887*sqrt(1+1/10+x2/x3),得yl=7.5724171
即航班正点率为80%时,投诉次数的95%的置信区间为[37.659687,70.619033],预测区间为[7.5724171,100.7063]。
11.8
(1)打开一张EXCEL表格,输入数据如下:
(2)数据|分析|数据分析|回归,弹出回归对话框并设置如下:
(3)单击“确定”得如下输出结果:
SUMMARYOUTPUT
回归统计
MultipleR
0.79508
RSquare
0.632151
AdjustedRSquare
0.611715
标准误差
2.685819
观测值
20
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
223.1403
30.93318
2.79889E-05
残差
18
129.8452
7.213622
总计
19
352.9855
Coefficients
tStat
P-value
Lower95%
Upper95%
下限95.0%
上限95.0%
Intercept
49.31768
3.805016
12.96123
1.45E-10
41.32363505
57.31172
41.323635
XVariable1
0.249223
0.04481
5.561761
2.8E-05
0.155080305
0.343365
0.1550803
Excel输出的回归结果包括以下几个部分:
第一部分是“回归统计”,这部分给出了回归分析中的一些常用统计量,
包括表中复相关系数MultipleR=0.79508,它是度量复相关程度的指标,取值[0,1]之间,取值越大,表明要素或变量之间的线性相关程度越密切;
判定系数RSquare=0.632151,表示有63.2151%的出租率可以由每平方米月租金之间的线性关系来解释;
调整的决定系数AdjustedRSquare=0.611715,表示调整后的判定系数使用了自由度为一个权重因子,即使解释变量增加,如果它与被解释变量无关,则调整后的判定系数不会增加会减少;
标准误差,表示各测量值误差的平方的平均值的平方根,故又称为均方误差的平方根,在这里取2.685819(已验证,该值即为Se);
观测值个数19。
第二部分是“方差分析”,这部分给出的是回归分析的方差分析表,包括自由度df、回归平方和SSR=223.1403、残差平方和SSE=129.8452、总平方和SST=352.9855、回归的均方根223.1403、残差的均方根MSE=7.213622;
检验统计量F=SSR/1SSE/(n-2)=MSRMSE=30.93318;
F检验的显著性水平SignificanceF=2.79889E-05,用于线性关系的显著性检验,说明两个变量之间的线性是否显著;
第三部分是参数估计的有关内容。
包括
回归方程的截距β0=49.31768;
斜率β1=0.249223,表示月租金变化1元引起的出租率变化24.9223%;
截距的标准误差3.805016,斜率的标准误差0.04481;
用于回归系数检验的t统计量及对应的P值,说明回归系数的显著性,即月租金和出租率两者之间是否有显著关系;
截距和斜率的置信区间[Lower95%,Upper95%]。
11.9
(1)方差分析表
1602708.6
399.1
2.17E-09
10
40158.07
4015.807
11
1642866.67
(2)R2=SSRSST=1602708.61642866.67=0.975556,即汽车销售量的变差中有97.556%由广告费用的变动引起。
(3)汽车销售量与广告费用的相关系数r=R2=0.975556=0.98770238,表明汽车销售量与广告费用有高度的相关性。
(4)由题意得,y=1.420211x+363.6891。
β0=363.6891,表示回归直线的截距为363.6891;
β1=1.420211,表示广告费用提高1单位使汽车销售量改变1.420211单位。
(5)线性关系显著性检验的F0。
051,9=399.1,其对应的P=SignificanceF=0.00000000217<
0.05,故拒绝原假设,即汽车销售量与广告费用之间的线性关系显著。
11.10
(1)编辑数据集,命名为linehuigui7.dat
输入命令scatteryx,得到如下散点图,可以看到,y和x是负线性相关的关系。
(2)输入命令regyx得到下图:
可得线性函数:
y=2.302932x+13.62541,即β0=13.62541,表示回归直线的截距为13.62541;
β1=2.302932,表示x变化1单位使使y变化2.302932单位。
(3)输入predictyhat
gene=x-yhat
得到残差e,见下图:
由
(2)的结果可得,判定系数R2=0.9373,即y的变差93.73%由x引起,y和x之间有较强的线性关系;
估计标准误差Se=MSE=3.8092;
由于R2=0.9373,y和x之间有较强的线性关系,直线拟合得较好。
11.11
(1)F=SSR/1SSE/(n-2)=MSRMSE=60/140/(20-2)=27;
(2)F0.051,18=4.414;
(3)由F>
F0.051,18,故拒绝原假设;
(4)r=R2=0.9373=-0.96814255;
(5)由(3)知,x与y之间有显著的线性关系。
11.12由题意得,12取y0为x0=4的预测值,x1为x平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
Se=1.0,t0.02518=2.1009,
y0=3*4+5=17,
x1=2,
x2=4,
x3=20
display17+2.1009*1.0*sqrt(1/20+4/20),得zu=18.05045
display17-2.1009*1.0*sqrt(1/20+4/20),得zl=15.94955
display17+2.1009*1.0*sqrt(1+1/20+4/20),得yu=19.348878
display17-2.1009*1.0*sqrt(1+1/20+4/20),得yl=14.651122
即x为4元时,y的95%的置信区间为[15.94955,18.05045],预测区间为[14.651122,19.348878]。
11.13
(1)编辑数据集,命名为linehuigui8.dat
y=15.23977x-46.29181,即β0=-46.29181,表示回归直线的截距为-46.29181;
β1=15.23977,表示x变化1单位使使y变化15.23977单位。
(3)输入如下命令,得到置信区间示意图:
invttail(20,0.025)*stdp
twoway(lfitciyx,level(95))(scatteryx)(linezlzux,pstyle(p2p2p3p3)sort)
取y0为x0=40的预测值,x1为x平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
Se=MSE=SSEn-2=108.76,t0.0256=2.4469,
y0=15.23977*40-46.29181=563.29899,
egenx1=mean(x),得到x1=24.9375,
genx2=(40-24.9375)^2,得到x2=226.87890625,
egenx3=sum((x-x1)^2),得到x3=2692.11875
displayy0+2.4469*108.76*sqrt(1/8+x2/x3),得zu=685.04208
displayy0-2.4469*108.76*sqrt(1/8+x2/x3),得zl=441.5559
即x为40元时,y的95%的置信区间为[441.5559,685.04208]。
11.14编辑数据集,命名为linehuigui9.dat
输入命令scattere1v1得图:
可见对所有的x值,ε的方差都相同,假定的描述变量x和y之间的关系模型是合理的,该残差图对应的模型是满意的模式;
输入命令scattere2v4得图:
可见该残差图对应的模型不合适,应考虑曲线回归或多元回归模型。
11.15
(1)编辑数据集,命名为linehuigui10.dat
输入命令scatteryx,得到如下散点图,可以看到,销售额和广告费用是正线性相关的关系。
输入命令regyx得到下图:
y=1.547478x+29.39911,即β0=29.39911,表示回归直线的截距为29.39911;
β1=1.547478,表示广告支出费用提高1万元使销售额提高1.547478万元。
(2)由
(1)得到的结果可得回归方程线性关系的F检验值11.15对应的检验P值为0.0206<
α=0.05,故拒绝原假设,即销售额和广告费用之间存在显著的正相关性。
gene=y-yhat
scatterex
输入genz=e/7.8775
scatterzx
得到标准化残差图如下:
可见标准化残差都在-2到2之间,对所有的x值,ε的方差都相同,假定的描述变量x和y之间的关系模型是合理的,该残差图对应的模型是满意的模式。
(4)由(3)知虽然爱关于误差项ε的假设被满足了,可是通过散点图的走势可以发现,如果用指数型曲线模拟效果会更好。
11.16
(1)编辑数据集,命名为linehuigui11.dat
输入命令scatteryx,得到如下散点图,可以看到,销售量和广告费用是正线性相关的关系。
y=0.1958404x+4.068466,即β0=4.068466,表示回归直线的截距为4.068466;
β1=0.1958404,表示广告支出费用提高1万元使销售量提高0.1958404万箱。
(2)输入predictyhat
得到残差图如下
最后一点(120.0,36.3)对应的标准化残差较大,接近Ze=2,该点为异常点。
取x1为x平均值,x2=(x-x1)^2,x3=sum((x-x1)^2)
egenx1=mean(x),得到x1=40.5,
genx2=(x-x1)^2,
egenx3=sum((x-x1)^2),得到x3=19176.64
genx4=1/10+x2/x3
genx5=1/10
genx6=x4-x5
scatterx6x
由上图可知,倒数最大的一个点(120.0,36.3)具有高杠杆率,该点是有影响的观测值。
(3)有影响的观测值不一定是一个异常值。
二、多元线性回归
12.1
(1)编辑数据集,命名为mlinehuigui1.dat
输入命令regyx1x2得到下图:
y=-0.0497143x1+1.928169x2+25.0287。
当x1=200,x2=7时,y=-0.0497143*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 版贾俊平 人大 回归 时间 序列 stata