统计学第四版综合复习公式.docx
- 文档编号:4252286
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:24
- 大小:285.72KB
统计学第四版综合复习公式.docx
《统计学第四版综合复习公式.docx》由会员分享,可在线阅读,更多相关《统计学第四版综合复习公式.docx(24页珍藏版)》请在冰点文库上搜索。
统计学第四版综合复习公式
1、统计学:
是收集、汇总和分析统计数据的科学和艺术。
2、统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程。
3、普查:
是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。
4、抽样调查的特点:
经济性;时效性高;适应面广;准确性高。
5、调查方案:
是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。
6、组距分组的几个步骤:
一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。
)
7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况。
8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。
9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。
10、众数:
是一组数据中出现次数最多的变量值。
从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M。
11、众数是一组数据中心位置的一个代表值。
当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数。
12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。
13、时间系列:
是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。
14、用报告期水平减去基期水平,就等于增长量。
其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。
15、报告水平与基期水平之比,称为发展速度。
其中,当基期水平为上期水平时,就称为环比发展速度;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。
16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平。
由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。
17、绝对数有时期数和时点数之分,两者的区别主要在于是否具有可加性。
18、几何平均法的应用条件是要求现象呈现均匀变动。
如果现象发生大起大落的变化,用几何平均法所计算的平均发展速度将失去代表性。
19、累计法考虑各时期的发展状况,不只是受最初和最末两个极端值的影响。
20、移动平均法是趋势变动分析的一种较简单的常用方法。
该方法的基本思想和原理是,通过扩大原时间序列的时间间隔,并按一定的间隔长度逐期移动,分别计算出一系列移动平均数,这些平均数形成的新的时间序列对原时间序列的波动起到一定的修匀作用,削弱了原序列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。
该方法可以用来分析预测销售情况、库存、股价或其他趋势。
移动平均法的优点在于计算简便,运用灵活,不受现象复杂性影响。
其缺点主要有三个:
一是失去首尾两头的数据;二是不能较好地进行长期趋势的预测;三是对周期性处理不好就会影响数列的趋势性。
21、我们应该先剔除趋势值的影响,再计算季节指数。
(第一步:
对原数据计算移动平均数;第二步:
计算具体的季节比率;第三步:
计算月平均值,消除不规则波动;第四步:
计算季节比率;第五步:
使用季节比率进行预测。
)
22、指数作为一种对比性的统计指标具有相对数的形式,通常表现为百分数。
23、统计指数在经济分析上具有十分广阔的应用领域,它可以是不同时间的现象水平的对比,也可以是不同空间(如不同国家、地区、部门、企业等)的现象水平的对比,或者,是现象的实际水平与计划(规划或目标)水平的对比。
24、统计指数可分为个体指数和总指数。
25、总指数是考察整个总体现象的数量对比关系的指数。
总指数与个体指数的区别不仅在于考察范围不同,还在于考察方法不同。
26、如果一个指数的指数化指标具有质量指标的特征,也即表现为平均数或相对数的形式,它就属于“质量指标指数”。
物价指数、股份指数和成本指数等都是质量指标指数;如果一个指数的指数化指标具有数量指标的特征,也即具有总量或绝对数的形式,它一般就属于“数量指标指数”。
销售旦指数和生产指数则是数量指标指数。
27、常规的综合评价方法有两种:
一种是“简易计分法”,另一种是常规方法是“参数指标法”。
28、构建标准比值综合评价指数的步骤:
1、建立综合评价指标体系;2、确定评价公式样3、确定各项指标的评价标准和权数学4、计算企业的个体指数和综合评价指数。
29、概率分布是一种数学模型,它反映变量取值与其发生的概率之间的关系。
其特点是:
变量取值的精确度越高,相应的概率越小;变量取值的误差越大,相应的概率也越大。
30、二项分布主要描述只有两种结果可能出现的事件的分布。
这两种结果分别用“是”和“非”来区别。
31、泊松分布是主要描述稀有事件的分布。
例如,在单位时间内电话交换台收到电话呼叫的次数、来到公共汽车站的乘客人数、布上的疵点、啤酒中的杂质等,也称为计点分布或疵点分布。
32、完成简单随机样本的选择过程中,当我们并不想将一个管理人员多次先入时,就可以忽略已出现过的随机数,这种选择样本的方式叫做“无放回抽样”。
33、出现过的随机数仍选入样本,则我们进行的是“放回抽样”。
抽样程序中,放回抽样是一种取得简单随机样本的有效途径,然而,无放回抽样更为常用。
34、大样本:
在抽样过程中,把抽样数目大于30的样本。
而把抽样数目小于30的样本称为小样本。
35、必要的抽样数目受以下因素影响:
1、总体方差点;2、允许误差范围;3、置信度假4、抽样方法;5、抽样组织方式。
36、分层抽样是通过分组来提高样本样本的代表性的。
37、等距抽样最显著的优越性是能提高样本单位分布的均匀性,样本代表性较强。
38、在整群抽样过程中,划分群体的原则是:
应合群间差异尽可能小,使各群体内的总体单位之间的差异尽可能大。
39、假设检验主要的两个特点:
1、假设检验所采用的逻辑推理方法是反证法。
2、这里的合理与否,所依据的是“小概率事件实际不可能发生的原理”。
40、原假设和备择假设不是随意提出的,应根据所检验问题的具体背景而定。
常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。
41、左侧检验和右侧检验统称为单侧检验。
采用哪种假设,要根据所研究的实际问题而定。
如果对所研究问题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验。
42、当原假设H0为真,但由于样本的随机性使样本统计量落入了拒绝区域,这时所作的判断是拒绝原假设。
这类错误称为第一类错误,亦称真错误。
43、当原假设H0不为真,但由于样本的随机性使样本统计量落入接受区域,这时的判断是接受原假设。
这类错误称为第二类错误,亦称取伪错误。
44、当N固定时,减少A必然导致B增大;反之,减少B必然增大A。
若要同时减少A和B,或给定A而使B减少,就必须增大样本容量N。
45、区间估计与假设检验的关系:
1、抽样估计或称参数估计是根据样本资料估计总体参数的真值,而假设检验是根据样本资料来检验对总体参数的先验假设是否成立。
2、区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验不仅有双侧检验也常常采用单侧检验,视检验的具体问题而定。
3、区间估计六足于大概率,通常以较大的把握程度1-a去估计总体参数的置信区间。
而假设检验立足于小概率,通常是给定很小的显著性水平a去检验对总体参数的先验假设是否成立。
在假设检验中,人们更重视拒绝区域。
所以假设检验运用的是概率意义上的反证法,在建立假设时本着“不轻易拒绝原假设”的原则。
区间估计中的置信区间对应于假设检验中的接受区域,置信敬意之外的区域就是拒绝区域。
46、假设检验的结论是在给定的显著性水平下作出的。
因此,在不同的显著性水平下,对同一检验问题所下的结论可能完全相反。
47、相关分析:
就是用一个指标来表明现象间相互依存关系的密切程度。
48、回归分析:
就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
49、相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是,现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此。
在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
50、样本回归子函数与总体回归子函数的区别:
1、总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,具有大量性。
2、总体回归子函数中的B1和B2是未知的参数,表现为常数,而样本回归子函数中的B1和B2是随机变量,其具体数值随所抽取的样本观测值不同而变动。
3、总体回归子函数中的误差项U1是不可直接观测的,而样本回归子函数中的残差项E1可以计算出具体数值。
51、理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明能很好地解释现实的现象。
52、一级检验:
又称为统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体双可分为拟合程度评价和显著性检验。
53、二级检验:
又称为经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验等。
54、拟合程度:
是指样本观测值聚集在样本回归线周围的紧密程度。
55、可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高;可决系数越小,则样本拟合程度越差。
56、回归分析中的显著性检验包括两方在同的内容:
一是对各回归系数的显著检验;二是对整个回归方程的显著性检验。
57、对回归系数B2进行显著性检验的基本步骤:
首先,提出假设;其次,计算回归系数的t值;第三,确定显著水平a=5%和临界值;最后,作出判断。
一、某车间工人日产量资料如下:
计算该车间平均每个工人的日产量及标准差.
v
平均日产量
标准差
甲、乙两班同时对《统计学原理》课程进行测试,甲班平均成绩为70分,标准差为9.0分;乙班的成绩分组资料如下:
(计算乙班学生的平均成绩,并比较甲、乙两班哪个班的平均成绩更有代表性?
)
乙班学生的平均成绩
v
乙班学生的标准差
v
甲班学生的变异系数乙班学生的变异系数
v
因为0.129〉0.120,所以乙班学生的平均成绩更具有代表性
二、时间序列计算
已知某商店1997年销售额比1992年增长64%,1998年销售额比1992年增长86%,问1998年销售额比1997年增长多少?
19921998年间,平均增长速度是多少?
Ø1998年销售额比1997年增长的百分数
19921998年平均增长速度
三、统计指数计算
某农贸市场三种商品的价格和销售量资料如下:
试根据上表资料计算:
拉氏形式的价格指数;派氏形式的价格指数
拉氏价格指数
派氏价格指数
四、区间估计计算
1、当总体方差已知时,求μ的置信区间。
例题:
已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。
该种零件平均直径的置信区间为:
:
[200.95,204.05]
2、当总体方差未知时,求μ的置信区间。
例题:
某企业生产一种新的电子元件,用简单随机重复抽样方法抽取100只作耐用时间试验,测试结果,平均寿命6000小时,标准差300小时,试在95.45%(t=2)概率保证下,估计这种新电子元件平均寿命区间
新电子元件平均寿命区间为:
5940-----6060(小时)
3、当总体比例的置信区间估计。
例题:
某机械厂日产某种产品8000件,现采用纯随机不重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
五、总体均值的假设检验
1、例:
根据过去大量资料,某厂生产的产品的使用寿命服从正态分布N(1020,1002)。
现从最近生产的一批产品中随机抽取16件,测得样本平均寿命为1080小时。
试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?
v解:
根据题意,提出假设:
H0:
μ=1020;H1:
μ>1020,
v
检验统计量
v检验统计量由α=0.05,查表得临界值Z0.05=1.645
v由于Z=2.4>Zα=1.645,所以应拒绝H0而接受H1,即这批产品的使用寿命确有显著提高
2、例:
从长期的资料可知,某厂生产的某种电子原件服从均值为200小时,标准差未知的正态分布。
通过改变部分生产工艺后,抽得10件做样本,均值为204.8(小时),标准差S=5.789,试问电子原件的平均值数据是否有所提高。
v解:
根据题意建立如下假设:
v
检验统计量
v
由α=0.05,查表得临界值。
v
由于,所以拒绝H0接受H1,即可以接受“在新工艺下,这种电子元件的平均值有所提高的假设”
3、例:
调查人员在调查某企业的主要生产线时,被告知性能良好生产稳定,产品合格率可达99%。
随机抽查了200件产品,其中195件产品合格,判断厂方的宣称是否可信?
(α=10%)
v
解:
依题意,可建立如下假设:
v
样本比例0.975
v检验统计量:
v给定α=0.1,查正态分布表得
v
由于,应接受原假设,即认为厂方的宣称是可信的
统计学原理复习(计算题)
1.某单位40名职工业务考核成绩分别为:
68898884868775737268
75829758815479769576
71609065767276858992
64578381787772617081
单位规定:
60分以下为不及格,60─70分为及格,70─80分为中,80─90
分为良,90─100分为优。
要求:
(1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并
编制一张考核成绩次数分配表;
成绩
职工人数
频率(%)
60分以下
60-70
70-80
80-90
90-100
3
6
15
12
4
7.5
15
37.5
30
10
合计
40
100
(2)指出分组标志及类型及采用的分组方法;
(3)计算本单位职工业务考核平均成绩
(4)分析本单位职工业务考核情况。
解:
(1)
(2)分组标志为"成绩",其类型为"数量标志";分组方法为:
变量分组中的开放组距式分组,组限表示方法是重叠组限;
(3)本单位职工业务考核平均成绩
(4)本单位的职工考核成绩的分布呈两头小,中间大的"正态分布"的形态,说明大多数职工对业务知识的掌握达到了该单位的要求。
2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下:
品种
价格(元/斤)
甲市场成交额(万元)
乙市场成交量(万斤)
甲
乙
丙
1.2
1.4
1.5
1.2
2.8
1.5
2
1
1
合计
—
5.5
4
试问哪一个市场农产品的平均价格较高?
并说明原因。
解:
品种
价格(元)
X
甲市场
乙市场
成交额
成交量
成交量
成交额
m
m/x
f
xf
甲
乙
丙
1.2
1.4
1.5
1.2
2.8
1.5
1
2
1
2
1
1
2.4
1.4
1.5
合计
—
5.5
4
4
5.3
解:
先分别计算两个市场的平均价格如下:
甲市场平均价格
(元/斤)
乙市场平均价格
(元/斤)
说明:
两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场
平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。
3.某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件,
标准差为9.6件;乙组工人日产量资料如下:
日产量(件)
工人数(人)
15
25
35
45
15
38
34
13
要求:
⑴计算乙组平均每个工人的日产量和标准差;
⑵比较甲、乙两生产小组哪个组的日产量更有代表性?
解:
(1)
(件)
(件)
(2)利用标准差系数进行判断:
因为0.305>0.267
故甲组工人的平均日产量更有代表性。
4.某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其月平均产量水平,得每人平均产量560件,标准差32.45
要求:
(1)计算抽样平均误差(重复与不重复);
(2)以95%的概率(z=1.96)估计该厂工人的月平均产量的区间;
(3)以同样的概率估计该厂工人总产量的区间。
解:
(1)
重复抽样:
不重复抽样:
(2)抽样极限误差
=1.96×4.59=9件
月平均产量的区间:
下限:
△
=560-9=551件
上限:
△
=560+9=569件
(3)总产量的区间:
(551×1500826500件;569×1500853500件)
5.采用简单随机重复抽样的方法,在2000件产品中抽查200件,其中合格品190件.
要求:
(1)计算合格品率及其抽样平均误差
(2)以95.45%的概率保证程度(z=2)对合格品率和合格品数量进行区间估计。
(3)如果极限误差为2.31%,则其概率保证程度是多少?
解:
(1)样本合格率
p=n1/n=190/200=95%
抽样平均误差
=1.54%
(2)抽样极限误差Δp=zμp=2×1.54%=3.08%
下限:
△p=95%-3.08%=91.92%
上限:
△p=95%+3.08%=98.08%
则:
总体合格品率区间:
(91.92%98.08%)
总体合格品数量区间(91.92%×2000=1838件98.08%×2000=1962件)
(3)当极限误差为2.31%时,则概率保证程度为86.64%(z=Δ/μ)
6.某企业上半年产品产量与单位成本资料如下:
月 份
产量(千件)
单位成本(元)
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
要求:
(1)计算相关系数,说明两个变量相关的密切程度。
(2)配合回归方程,指出产量每增加1000件时,单位成本平均变动多少?
(3)假定产量为6000件时,单位成本为多少元?
解:
计算相关系数时,两个变量都是随机变量,
不须区分自变量和因变量。
考虑到要配和合回归方程,
所以这里设产量为自变量(x),单位成本为因变量(y)
月 份
n
产量(千件)
x
单位成本(元)
y
xy
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
4
9
16
9
16
25
5329
5184
5041
5329
4761
4624
146
216
284
219
276
340
合计
21
426
79
30268
1481
(1)计算相关系数:
说明产量和单位成本之间存在高度负相关。
(2)配合回归方程 y=a+bx
=-1.82
=77.37
回归方程为:
y=77.37-1.82x
产量每增加1000件时,单位成本平均减少1.82元
(3)当产量为6000件时,即x=6,代入回归方程:
y=77.37-1.82×6=66.45(元)
7.根据企业产品销售额(万元)和销售利润率(%)资料计算出如下数据:
n=7
=1890
=31.1
2=535500
2=174.15
=9318
要求:
(1)确定以利润率为因变量的直线回归方程.
(2)解释式中回归系数的经济含义.
(3)当销售额为500万元时,利润率为多少?
解:
(1)配合直线回归方程:
y=a+bx
b=
=
=0.0365
a=
=
=-5.41
则回归直线方程为:
yc=-5.41+0.0365x
(2)回归系数b的经济意义:
当销售额每增加一万元,销售利润率增加0.0365%
(3)计算预测值:
当x=500万元时yc=-5.41+0.0365
=12.8%
8.某商店两种商品的销售资料如下:
商品
单位
销售量
单价(元)
基期
计算期
基期
计算期
甲
乙
件
公斤
50
150
60
160
8
12
10
14
要求:
(1)计算两种商品销售额指数及销售额变动的绝对额;
(2)计算两种商品销售量总指数及由于销售量变动影响销售额的绝对额;
(3)计算两种商品销售价格总指数及由于价格变动影响销售额的绝对额。
解:
(1)商品销售额指数=
销售额变动的绝对额:
元
(2)两种商品销售量总指数=
销售量变动影响销售额的绝对额
元
(3)商品销售价格总指数=
价格变动影响销售额的绝对额:
元
9.某商店两种商品的销售额和销售价格的变化情况如下:
商品
单位
销售额(万元)
1996年比1995年
销售价格提高(%)
1995年
1996年
甲
乙
米
件
120
40
130
36
10
12
要求:
(1)计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额。
(2)计算销售量总指数,计算由于销售量变动,消费者增加(减少)的支
出金额。
解:
(1)商品销售价格总指数=
由于价格变动对销售额的影响绝对额:
万元
(2))计算销售量总指数:
商品销售价格总指数=
而从资料和前面的计算中得知:
所以:
商品销售量总指数=
,
由于销售量变动,消费者增加减少的支出金额:
-
10.某地区1984年平均人口数为150万人,1995年人口变动情况如下:
月份
1
3
6
9
次年1月
月初人数
102
185
190
192
184
计算:
(1)1995年平均人口数;
(2)1984-1995年该地区人口的平均增长速度.
解:
(1)1995年平均人口数
=181.38万人
(2)1984-1995年该地区人口的平均增长速度:
11.某地区1995—1999年粮食产量资料如下:
年份
1995年
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 综合 复习 公式