时间序列论文-我国人口预测.docx
- 文档编号:2503083
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:14
- 大小:122.07KB
时间序列论文-我国人口预测.docx
《时间序列论文-我国人口预测.docx》由会员分享,可在线阅读,更多相关《时间序列论文-我国人口预测.docx(14页珍藏版)》请在冰点文库上搜索。
中南大学数学学院
大学生课程设计
课程设计名称:
时间序列分析
专业班级:
统计1203
题目:
我国人口预测
姓名:
李犁
学号:
1304120724
指导教师:
唐立
2015-6-15
前言
人口问题是一个世界各国普遍关注的问题。
人作为一种资源,主要体现在人既是生产者,又是消费者。
作为生产者,人能够发挥其的主观能动性,加速科技进步,促进社会经济的发展;作为消费者,面对有限的自然资源,人在发展的同时却又不得不考虑人口数量的问题。
因为影响一个国家或地区的人口数量不仅仅是一个自然再生过程,它还涉及到这个国家或地区的经济增长,环境资源的承载力等因素。
一个国家或地区的人口规模直接影响着其经济的发展、政治结构的稳定、社会的进步和资源的利用。
中国是世界人口第一大国,人口问题始终是影响我国可持续发展的核心因素。
由于我国20世纪50-60年代在人口政策方面的失误,不仅造成人口总数增长过快,而且年龄结构也不合理。
因此,要在保证人口有限增长的前提下适当控制人口老龄化水平,把年龄结构调整到合适的区间,就是一项长期而又艰巨的任务。
用建立数学模型的方法对人口发展的过程进行描述、分析和预测,进而研究和控制人口增长和人口老龄化的政策、策略,早已引起各有关方面的极大关注和兴趣,并成为系统科学、经济科学和人口科学研究中重要的应用交叉研究领域。
因此人口研究、预测和控制是关系国计民生的大事。
最早的人口预测模型可以追溯到英国人口学家马尔萨斯。
马尔萨斯根据百余年的人口统计数据资料,于1798年提出了著名的人口指数增长模型。
后来,人们通过对马氏模型的修正,又提出了阻滞增长模型(logistic模型),该模型在一定的时期内也取得了比较令人满意的结果。
指数增长模型和阻滞增长模型都是确定性的,只考虑人口总数变化的连续时间。
后来,人们又发展出了随机性模型,如考虑人口年龄分布的模型等。
人口预测,作为经济、社会研究的一种方法,应用越来越广泛,也越来越受到人们的重视。
在描绘未来小康社会的蓝图时,首先应要考虑的是未来中国的人口数量、结构、分布、劳动力、负担系数等等,而这又必须通过人口预测来一一显示。
人口预测研究是国家制定未来人口发展目标和生育政策等有关人口政策的基础,对于国民经济计划的制定和社会战略目标的决策具有重要参考价值。
一般的人口预测统计学模型,预测精度都难以保证。
影响未来人口数量变化的因素很多,但可归纳成两个主要方面,第一,与目前人口的数量和构成有直接的关系;第二,受经济社会发展水平和人口政策的影响。
经典的时间序列模型主要考虑第一个方面的影响,即从探讨人口发展的历史规律出发来预测未来人口的发展趋势。
应用较多的时间序列模型有自回归模型(AR),移动平均模型(MA),自回归移动平均模型(ARIMA)等。
人口数量在时间上的变化,具有当前变化受前期数量状况的影响的特殊性质。
因此可以用自回归模型来预测其继后期的数量。
故本文利用EVIEWS软件尝试使用ARIMA模型对我国人口数进行研究并进行预测,选取1970-2011年的我国人口数(POP)为研究对象,其中数据来源于中国2014年统计年鉴。
1.ARIMA模型介绍
2.1关于ARIMA模型
ARIMA模型全称为差分自回归移动平均模型。
是由博克思和詹金斯于70年代初提出的一著名时间序列预测方法,博克思-詹金斯法。
其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
ARIMA模型的基本思想是:
将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。
这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。
2.2自回归过程
令Yt表示t时期的GDP。
如果我们把Yt的模型写成
Yt-δ=α1Yt-1-δ+ut
其中δ是Y的均值,而ut是具有零均值和恒定方差σ2的不相关随机误差项(即ut是白噪音),则成Yt遵循一个一阶自回归或AR
(1)随机过程。
P阶自回归函数形式写成:
Yt-δ=α1Yt-1-δ+α2Yt-2-δ+α3Yt-3-δ+…+αp2Yt-p-δ+ut
由于Y值主要依赖于其过去值,过模型中只有Y这一个变量,没有其他变量。
2.3建模步骤
1.观察时间序列。
根据时间序的散点图自相关函数(ACF)图和偏自相关函(PACF)图以及ADF单位根检验观察其方差、趋势及其季节性变化规律,识别该序列的平稳性。
2.对序列进行平稳化处理。
如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需对数据进行差分处理;如果数据序列存在异方差性,则需对数据进行对数转换或者开方处理,直到处理后数据的自相关函数值和偏相关函数值无显著地异于零。
3.模型识别。
若平稳时间序列的偏相关函数是截尾的,而自相关函数是拖尾的,则可断定此序列适合AR模型;若平稳时间序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定此序列适合MA模型;若平稳时间序列的偏相关函数和自相关函数均是拖尾的,则此序列适合ARMA模型。
4.对ARIMA(p,d,q)模型定阶,估计参数。
5.模型检验。
进行假设检验,诊断白噪声检验假设模型残差的ACF值和PACF值在早期或季节性延迟点处不得大于置信区间,同时残差应理想化为0均值。
可观察残差的ACF图、PACF图,并辅以D—w值、t值等检验法。
6.预测分析。
时间序列分析包括以下步骤:
分析时间序列的随机特性;用实际统计序列构造预测模型;根据所得模型做出最佳的预测值。
2.我国人口预测模型的构建步骤
3.1数据的选取
文章选取的数据来源于中国统计年鉴,其中1981年及以前数据为户籍统计数;1982、1990、2000、2010年数据为当年人口普查数据推算数;其余年份数据为在年度人口抽样调查基础上,根据人口普查数据修订数。
为了建立模型方便,我国人口数(万人)用POP代替。
表3-1我国1970-2010年人口数据(数据来源:
2011年中国统计年鉴)
年份
我国人口数(万人)
1970
82992
1991
115823
1971
85229
1992
117171
1972
87177
1993
118517
1973
89211
1994
119850
1974
90859
1995
121121
1975
92420
1996
122389
1976
93717
1997
123626
1977
94974
1998
124761
1978
96259
1999
125786
1979
97542
2000
126743
1980
98705
2001
127627
1981
100072
2002
128453
1982
101654
2003
129227
1983
103008
2004
129988
1984
104357
2005
130756
1985
105851
2006
131448
1986
107507
2007
132129
1987
109300
2008
132802
1988
111026
2009
133450
1989
112704
2010
134091
1990
114333
2011
134735
3.2平稳性检验
3.2.1首先绘制年份与人口数的时序图。
建立人口时序图3-1。
观察时序图3-1可以初步确定该序列有一定的趋势,不具有周期性。
图3-1
3.2.2Unitroottest:
可以得到以下结果。
NullHypothesis:
POPULATIONhasaunitroot
Exogenous:
Constant
LagLength:
1(Automatic-basedonSIC,maxlag=9)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-1.256955
0.6400
Testcriticalvalues:
1%level
-3.605593
5%level
-2.936942
10%level
-2.606857
*MacKinnon(1996)one-sidedp-values.
AugmentedDickey-FullerTestEquation
DependentVariable:
D(POPULATION)
Method:
LeastSquares
Date:
06/15/15Time:
10:
00
Sample(adjusted):
342
Includedobservations:
40afteradjustments
Variable
Coefficient
Std.Error
t-Statistic
Prob.
POPULATION(-1)
-0.002574
0.002048
-1.256955
0.2166
D(POPULATION(-1))
0.833456
0.076558
10.88660
0.0000
C
463.9353
315.9127
1.468555
0.1504
R-squared
0.914795
Meandependentvar
1237.650
AdjustedR-squared
0.910189
S.D.dependentvar
388.7669
S.E.ofregression
116.5073
Akaikeinfocriterion
12.42582
Sumsquaredresid
502236.2
Schwarzcriterion
12.55249
Loglikelihood
-245.5165
Hannan-Quinncriter.
12.47162
F-statistic
198.6235
Durbin-Watsonstat
1.707230
Prob(F-statistic)
0.000000
从上面结果可以看出ADF_T=-1.2596>-3.065593.则Y序列非平稳,由于结果存在周期性,可以用季节查分将其平稳。
3.2.2用四阶差分将序列平稳化:
在procs/generatebyequation中输入x=y-y(-1),进行这阶段差分一直到四阶时得到平稳序列,再做ADF检验。
NullHypothesis:
P4hasaunitroot
Exogenous:
Constant
LagLength:
7(Automatic-basedonSIC,maxlag=9)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-6.054590
0.0000
Testcriticalvalues:
1%level
-3.689194
5%level
-2.971853
10%level
-2.625121
*MacKinnon(1996)one-sidedp-values.
AugmentedDickey-FullerTestEquation
DependentVariable:
D(P4)
Method:
LeastSquares
Date:
06/15/15Time:
10:
16
Sample(adjusted):
1542
Includedobservations:
28afteradjustments
Variable
Coefficient
Std.Error
t-Statistic
Prob.
P4(-1)
-14.14468
2.336192
-6.054590
0.0000
D(P4(-1))
11.63319
2.244861
5.182143
0.0001
D(P4(-2))
9.326580
2.011726
4.636109
0.0002
D(P4(-3))
6.922418
1.617515
4.279664
0.0004
D(P4(-4))
4.467776
1.135122
3.935942
0.0009
D(P4(-5))
2.585625
0.659610
3.919928
0.0009
D(P4(-6))
1.146764
0.293734
3.904086
0.0010
D(P4(-7))
0.364448
0.079024
4.611864
0.0002
C
3.686891
17.96762
0.205196
0.8396
R-squared
0.992554
Meandependentvar
-25.42857
AdjustedR-squared
0.989420
S.D.dependentvar
915.6972
S.E.ofregression
94.19001
Akaikeinfocriterion
12.18360
Sumsquaredresid
168563.4
Schwarzcriterion
12.61181
Loglikelihood
-161.5704
Hannan-Quinncriter.
12.31450
F-statistic
316.6082
Durbin-Watsonstat
2.501347
Prob(F-statistic)
0.000000
从上图可以看出序列式平稳的,可以在此基础上建立模型。
3.3序列的初步处理
ARIMA(p,d,q)模型的识别与定阶可以通过样本的自相关与偏自相关函数的观察获得利用EVIEWS计算出该时间序列的自相关函数ACF和偏自相关函数PACF,见表1。
从表1中可以看出,自相关函数(ACF)表现出阻尼的正弦-余弦波动,偏自相关函数(PACF)在1阶以后接近于零。
所以,可以初步判断模型的阶数,并用ARIMA模型进行拟合,其中p=1,q=0,d=0。
图3-3自相关函数和偏自相关函数
由此可以判断呈现1步截尾现象,而p序列呈现负指数函数控制收敛于零,呈现拖尾现象。
所以初步判定适用于AR
(1)模型或者MA
(1)模型。
3.4模型的确定
确定ARIMA模型的具体参数后,下一步需要利用EVIEWS软件算出拟合模型的参数,结果如下图3-4ARIMA模型参数。
图3-4ARIMA模型参数
由图可以看出AR
(2)的系数很小,没用通过显著性检验,进而继续拟合AR
(1)模型,可以得出以下结果:
故建立模型为:
3.5模型检验
模型的显著性检验主要是检验模型的有效性。
一个模型是否显著有效主要看它提取的信息是否充分。
一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,换言之,拟合残差项中将不再蕴含任何相关信息,即残差序列应该为白噪声序列。
这样的模型称之为显著有效模型。
对残差序列进行白噪声检验,得到图表可以看出ACF和PACF都没有显著异于零,Q统计量的P值都远远大于0.05,因此可以认为残差序列为白噪声序列,模型信息提取比较充分。
常数和滞后一阶参数的P值都很小,参数显著;因此整个模型比较精简,模型较优。
3.6模型预测分析
根据上文建立的人口预测模型,对2011年—2020年的中国总人口进行预测,得到表3-3和图3-5。
表3-32011-2020我国人口预测结果
预测年份
预测人口数(万人)
2012
135820.1
2013
136586.8
2014
137337.2
2015
138071.7
2016
138790.6
2017
139494.3
2018
140183.0
2019
140857.0
2020
141516.8
图3-5预测结果拟合图
在图3-5中,红色线表示预测值的置信区间上下限,蓝色表示预测值走势。
可以看出该模型短期内预测比较准确,但是随着预测的延长,预测误差会逐渐增大,这是一个比较大的缺陷。
3.7结果分析
从预测方法来看,Box-jekin模型识别法存在程度不高的缺点,他是从定性的角度来判断模型的阶数,容易受到主管认识的影响,而F检验法较之有所改进。
增加了结果的可信性。
在搜集整理分析数据的过程中,可能会出现野值之类的情况,本次数据十分幸运的避开了,但是不代表可以忽略这一方面的学习,另外在建立模型的过程中应该多加试验,反复的选取建立。
从本次的试验中,学习到了很多书本上的理论的延伸知识,对分析和检验有很大的帮助。
虽然模型只是适用于短期的预测,存在局限性,应该继续加强学习。
参考文献:
[1]杨丽霞,杨桂山,苑韶峰.数学模型在人口预测中的应用[J].长江流域资源与环境,2006,15(3):
287-291
[2]我国总人口数量.中国统计年鉴2015-6
[3]王振龙.时间序列分析.中国统计出版社,2009
附录
1.二阶差分数据统计
Lastupdated:
06/15/15-10:
16
Modified:
142//p3=p2-p2(-1)
Modified:
142//p3=p2-p2(-1)
1
2
3
4
5
6
1618
7
-1247
8
877
9
-557
10
58
11
10
12
530
13
-755
14
-141
15
1120
16
-739
17
-60
18
91
19
-137
20
402
21
-243
22
-69
23
176
24
56
25
-294
26
113
27
146
28
-195
29
44
30
106
31
-13
32
-97
33
67
34
-29
35
42
36
-52
37
-84
38
251
39
-210
40
42
41
55
42
-43
2.进行一阶差分后的数据
Lastupdated:
06/15/15-10:
16
Modified:
142//p2=p-p(-1)
Modified:
142//p2=p-p(-1)
1
2
3
4
5
-847
6
771
7
-476
8
401
9
-156
10
-98
11
-88
12
442
13
-313
14
-454
15
666
16
-73
17
-133
18
-42
19
-179
20
223
21
-20
22
-89
23
87
24
143
25
-151
26
-38
27
108
28
-87
29
-43
30
63
31
50
32
-47
33
20
34
-9
35
33
36
-19
37
-103
38
148
39
-62
40
-20
41
35
42
-8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 时间 序列 论文 我国人口 预测