复习要点1.docx
- 文档编号:17310455
- 上传时间:2023-07-24
- 格式:DOCX
- 页数:23
- 大小:126.17KB
复习要点1.docx
《复习要点1.docx》由会员分享,可在线阅读,更多相关《复习要点1.docx(23页珍藏版)》请在冰点文库上搜索。
复习要点1
第一章统计和数据
复习要点
一、基本含义
1.统计就是用来处理数据的,它是关于数据的一门学问。
2.统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
统计分析数据的方法大体上可分为描述统计和推断统计两大类。
描述统计星研究数据搜集、处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据。
如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
3.统计的应用。
几乎所有的领域都应用统计,但是在应用中应注意分辨被误用与滥用的现象。
二、数据类型
统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。
1.定性变量(数据)与定量变量(数据)
(1)定性变量的观察结果称为定性数据。
这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,只有分类特征,没有量的特征;这种只能反映现象分类特征的变量又称为分类变量,分类变量的观察结果就是分类数据。
如果类别具有一定的顺序,这样的变量称为顺序变量,相应的观察结果就是顺序数据。
分类变量没有数值特征,所以不能对其数据进行数学运算。
由此可见,定性数据只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。
顺序变量比分类变量向前进了一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。
显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细了一些。
(2)具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异的变量就是定量变量,也称为数值变量,定量变量的观察结果成为定量数据。
作为统计研究的主要资料,数值型数据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差(相对距离)。
显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据。
因此,在统计研究中,数值型数据有着最广泛的用途。
2.观测数据和实验数据
观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。
在社会经济问题研究中,观测是取得数据最主要的方法。
实验数据一般是在科学实验环境下取得的数据。
在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。
自然科学研究中所用的数据多为实验数据。
三、数据的来源
从使用者的角廑看。
统计数据资料的来源主要有两种渠道:
一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;
另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手间接的统计数据.一切间接的统计数据都是从原始的、第一手数据过渡而来的。
1.原始数据。
搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。
统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方法,有计划、有组织地向容观实际搜集资料的过程。
通过统计调查得到的数据,一般称为观测数据。
实验法是通过实验法得到的数据就是实验数据。
运用实验法要注意的是,首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识的挑选的。
其次,实验组和对照组还应当是匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。
不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。
2.次级数据。
次级数据(第二手数据)是指由其他人搜集和整理得到的统计数据,这种自他人调查整理基础上的数据我们把它称为数据的间接来源。
数据的间接来源常用的有以下一些:
①公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构。
②尚未公开发表的统计数据,如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。
需要注意的是,如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。
在应用时要注意:
①是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据。
②引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。
四、统计调查
统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集统计数据资料的过程。
1.普查是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会现象总量。
它适于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。
普查的特点为:
它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。
目前,我国通过普查进行的统计调查内容和时间周期已经规范化、制度化,具体包括:
(1)人口普查。
每10年进行一次,逢"0"的年份进行;
(2)农业普查,每l0年进行一次,逢"7"的年份进行;
(3)经济普查,2004年进行了中国第一次经济普查。
2.抽样调查
抽样调查是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽样样本的指标去推算总体指标的一种调查。
随机原则要求所有调查单位都有一定的概率被抽取。
抽样调查具有的特点:
第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。
第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。
第三,在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。
抽样调查既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面统计资料,具有许多优点。
抽样调查是一种非全面的、一次性的或经常性的专门调查,这种调查方法在市场经济条件下,使用非常广泛。
抽样两种主要方法:
概率抽样和非概率抽样。
概率抽样是根据一个已知的概率随机选取被调查者。
常用的概率抽样形式有:
简单随机抽样、分层抽样、整群抽样和系统抽样。
非概率抽样是没有完全按照随机原则选取样本单位。
3.统计报表
统计报表是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自下而上地提供统计资料的一种调查方式。
按照报送范围,统计报表分为全面报表和非全面报表。
全面报表要求调查对象种的每一个单位均要填报,非全面报表则只要求一部分调查单位填报;
按照报送周期,统计报表主要有月报、季报、年报组成,月报内容简单,时效性强,年报则内容比较全面。
统计报表的内容包括表式和填表说明。
4.重点调查:
是在调查对象中选择一部分重点单位进行的一种非全面调查。
这些重点单位虽然数目不多,但它们具有所研究现象的总量在总体总量中占据绝大部分的特点。
5.典型调查:
是一种非全面的专门调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
第二章数据描述
复习要点
本章重点介绍如何简单地利用统计图表和少数数据来概括某些事物的基本特征。
一、定性数据的图表展示
定性效据包括分类数据和顺序数据,通常可以用频数分布表和图形来描述。
1.生成频数分布表
定性数据本身就是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就得到一张频数分布表。
频数分布表中落在某一特定类别的数据个数称为频数。
通过频数分布可以观察不同类型数据的分布情况。
注意运用Excel生成频数分布表的过程。
2.定性数据的图形表示
(1)饼图:
又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。
饼图主要用于总体中各组成部分所占比重的研究。
(2)条形图:
条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况.绘制时,各类别可以放在纵抽,也可以故在横轴。
(3)环形图:
环形图可以用来比较不同变量之间的结构差异。
二、定量数据用图表展示.
1.生成频数分布表
生成定量数据的频数分布表时,首先,要对数据进行分组。
以能够适当观察数据的分布特征为准。
一般的分组个数在5-15之间。
其次,要确定组距。
所谓组距是指每个组变量值中的最大值与最小值之差。
若将最大值称为上限,最小值称为下限,则组距等于上限与下限之差,即"组距=上限一下限"。
确定组距,一是要考虑各组的划分是否能区分总体肉部各个组成部分的性质差别,二是要能准确地清晰地反映总体单位的分布特征。
在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,一般采用不等距分组。
最后,统计出各组的频数及频数分布表。
在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。
2。
定量数据的图形表示
(1)直方图:
用横坐标代袁变量分组,纵坐标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩形,即直方同。
(2)折线图:
折线图是利用线段的升降来说明显向变动的一种统计图,它主要朋于表示现象在现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。
(3)散点图:
散点图也可以反映两个变量的关系。
应特别注意各种图表的生成方式和运用。
三、用统计表来表示数据
统计表是一种用密集的形式归纳数据的方法。
它主要是利用行和列中的数据来表述现象特征。
人们利用统计表主要出于两种目的:
一是在文章中使用它以支持自己的观点;二是利用它组织数据。
统计表一般由五个部分组成,即表头、行标题;列标题、数字资料和表外附加构成。
表头应该放在表的上方,它说明的是表的主要内容;
行标题和列标题一般放在表的第一行和第一列,它表示的是所研究的问题类别的名称和指标名称;
表的其余部分是具体的数字资料:
表外附加通常放在统计表的下方,用来说明资料来源、指标注释和必要的说明等内容。
通常情况下,统计表的左右两边不能封口。
四、用数字来概括数据
针对一组数据的分布特征,可以从两个方面来考查它:
一是该组数据的集中趁势,即该组数据的数值向其中心值的靠拢程度。
二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心值的趋势和程度。
这两个方面反映了数据分布特征的不同侧面,从不同视角来分析统计数据,以达到分析和运用统计数据的目的。
1.定性数据的数字特征
对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。
中位数,是数据按照大小排列之后位于中间的那个数(如果样本重为奇数),或者中间两个数目的平均(如果样本重为偶数)。
众数,就是数据中出现次教或出现频率最多的数值,在定性数据中,由于记录的是频数,因此众数用得多些。
2.定量数据的数字特征
常用的反映定量数据特征的统计量有:
反映数据集中趁势的水平度量:
平均数、中位数、众数和分位数等;
反映数据离散程度的差异度量:
极差、四分位差、标准差和方差。
(1)水平的度量
平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中叫做均值。
注意简单平均数和加权平均数的应用。
中位数和众数的应用比较简单,结合前边概念学习即可。
(2)差异的度量
极差又称全距,是一组数据中最夫的标志值和最小的标志值之差。
它的特点是简单直观,但是容易受数据中极端值的影响,因此,不能准确地描述数据的分散程度。
方差是将各个变量值和其均值离差平方的品军数,它反映了样本中各个观测值到其均值的平均离散程度。
标准差是方差的平方根,它更具量纲性,而且与变量值的计量单位相同,使用的范同更广泛。
离散系数也称为便变异系数、标准差系数,足将一组数据的标准差除以其均值,用来测度离散程度的相对数。
标准分数也称作标准化值或Z分数,是变量值与其平均数的离差除以标准差后的值,用以测定某一数据在该组数据中的相对位置。
第三章参数估计
复习要点
一、抽样分布
1.总体分布与总体参数
总体分布是总体中所有观察值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数(μ)、总体方差(σ2)、总体比例(π)等。
2.统计量与抽样分布
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数.如样本均值、样本方差(s2)、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
抽样分布是样本统计量所形成的概率分布,如样本均值的分布、样本比例的分布等。
抽样分布是一种理论分布。
抽样分布构成了推断总体参数的理论基础。
根据统计量来推断总体参数具有某种不确定性。
不同的样本可以计算出不同的统计量值。
(1)样本均值的抽样分布当总体服从正态分布时,样本均值一定服从正态分布,即有X~N(μ,σ2)
若总体为未知的非正态分布时,只要样本容量n足够大(通常要求n≥30),样本均值仍会接近正态分布。
如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分布则不服从正态分布。
(2)样本比例的抽样分布
比例是指具有某种属性的单位占全部单位数的比重。
总体比例(通常用π表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的。
样本比例(通常用P表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,是可以观察到的。
样本比例的抽样分布,是描述所有可能样本比例的概率分布。
当样本容量比较大时,样本比例P近似服从正态分布,在重置抽样时,P的分布为
在不重置抽样时,P的分布为P~N
一般讲,当np≥5,n(1一P)≥5时,就可以认为样本容量足够大。
随着样本容量的增大,样本比例的方差愈来愈小。
3.统计量的标准误差
统计量的标准误差也称为标准误,是指样本统计量分布的标准差。
可用于衡量样本统计量的离散程度。
在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。
样本均值的标准误计算公式为
样本比例的标准误计算公式为
二、参数估计
参数估计就是用样本统计量去倍计总体的参数。
用样本统计量来估计总体参数有两种方法:
点估计和区间估计
1.点估计与区间估计
点估计,是用样本统计量的实现值来近似相应的总体参数。
区间估计,是根据估计可靠程度的要求,利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的一种估计方法。
以68.73%的置信水平推断总体参数肛的置信区间为
以95.45%的置信水平推断总体参数肛的置信区间为
以99.73%的置信水平推断总体参数肛的置信区间为
2.评价估计量的标准无偏性,是指估计量抽样分布的期望值等于被估计的总体参数。
无偏估计量的定义。
设总体参数为0,所选择的估计量为
如果E(
)=θ则称
为θ的无偏估计量。
χ,P,s2分别是总体均值、总体比例、总体方差的无偏估计量。
有效性,是指估计量的方差尽可能小。
有效估计量的定义。
对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。
有效估计量。
一致性,是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数。
一致估计量。
样本均值是总体均值的一个一致估计量。
3.一个总体均值的区间估计,在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知,用于估计的样本是大样本还是小样本等情况。
(1)大样本的估计
大样本(n≥30)情况下,当总体方差σ2已知时,总体均值μ在1—α置信水平下的置信区间为
大样本情况下,当总体方差σ2未知时,总体均值μ在1一α置信水平下的置信区间为
(2)小样本的估计小样本(n<30)情况下,当正态总体的方差σ2已知时,总体均值μ在1一α置信水平下的置信区间
为小样本(n<30)情况下,当总体方差σ2未知时,总体均值μ在1一n置信水平下的置信区间为
总体均值的置信区间是由样本均值和估计误差两部分组成的。
4.一个总体比例的区间估计大样本条件下,当总体比例π已知时,在1一α的置信水平下,总体比例的置信区间为
在大样本条件下.当总体比例π未知时,在1一α的置信水平下,总体比例的置信区间为
总体比例的置信区间是由样本比例和估计误差两部分组成的。
三、样本量的确定
在进行参数估计时,样本量要适当。
样本量过大会增加调查费用,花费更多的人力;样本量过小,样本没有足够的代表性,统计量的标准误差会增大,对总体参数的估计会不准确。
1.估计总体均值时样本量的确定
在重置抽样条件下,设E代表允许的估计误差,则样本量计算公式为:
如果总体标准差盯未知,可以用样本标准差s来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的标准差s作为总体标准差盯的估计值。
样本量与置信水平成正比,与总体方差成正比,与允许的估计误差的平方成反比。
2.估计总体比例时样本量的确定
在重置抽样条件下。
设E代表允许的估计误差,则样本量计算公式为:
样本量越大,估计误差就越小,估计的精度就越高。
估计洪差由使用者预先确定。
大多数情况下,估计误差的取值一般应小于0.1。
如果总体比例π的值不知道,可以用样本比例s来代替,或者取π=0.5,使得π(1一π)达到最大。
第四章 假设检验
复习要点
一、假设检验
假设检验是先对总体参数或分布形式提出某种假设,然后利用样本信息和相关统计量的分布特征去检验这个假定,做出是否拒绝原来假设的结论。
参数估计是依据样本信息推断未知的总体参数。
1、为什么要进行假设检验:
找出样奉均值与总奉均值之间存在误差的原因。
2.如何进行假设检验:
小概率事件,是指在一次事件中几乎不可能发生的事件。
一般称之为“显著性水平”,用α表示。
显著性水平一般取值为α=0.05或α=5%。
3.假设检验的过程;
首先,要提出一个原假设和备择假设。
原假设(或零假设)H0,备择假设(或备选假设)H1
第二,确定检验统计量。
计算z统计量或计算t统计量
第三,确定显著性水平α.第一类错误和第二类错误
第四,根据数据计算检验统计量值和与这个统计量值对应的概率值,并进行决策。
4.检验决策准则:
双侧检验:
︳统计量的值︳>临界值,拒绝原假设
左侧检验:
统计量的值<临界值,拒绝原假设
右侧检验:
统计量的值>临界值,拒绝原假设
5.假设检验总结:
假设检验依据的是小概率原理。
小概率标准在抽样前依需要确定。
假设检验的结果只能是拒绝或不拒绝原来假设,而不能证明原假设成立。
统计假设检验的结果不是绝对正确。
二、总体均值的假设检验
在对总体均值进行假设检验时,采用什么检验统计量取决于所抽取的样本是否是大样本还是小样本,还需要考虑总体是否为正态分布、总体方差是否已知等。
1.大样本(n>30)的检验当总体方差已知时,总体均值检验的统计量为
当总体方差未知时,总体均值检验的统计量为
2.小样本(n<30)的检验当总体方差已知时,总体均值检验的统计量为
当总体方差未知时,总体均值检验的统计量为
三、总体比例的假设检验
生活中经常需要对总体的某些比例进行检验,以证明某种观点能否被否定。
一个总体比例的检验,基本形式有以下三种:
双侧检验:
H0:
π=π0,H1≠π。
左侧检验:
H0:
π≥π0,Hl#:
π<π0
右侧检验:
H0:
π≤π0,Hl:
π>π0在大样本时,样本比例会近似服从正态分布。
检验统计量用Z统计量,其基本形式为
第五章 相关分析和回归分析
复习要点
一、相关关系
变量之间存在着密切的联系但又不是严格的、确定的关系称为相关关系。
相关分析的主要内容包括以下几个方面:
(一)确定现象之间有无关系,这是相关分析的起点;
(二)确定相关关系的表现形式;
(三)测定相关关系的密切程度。
二、相关表和散点图
对于两个变量戈和Y,通过观察或实验,我们可以得到若干组数据,记为(xi,Yi)(i=1,2,…,n),将这些数据按x值由大到小(或由小到大)以序列表表示,即构成相关表。
将一一对应的(xi,Yi)描点于坐标系上,即构成散点图,又称为相关图。
通过散点图所反映出的坐标点的分布状况可以直观地判断变量之间是否存在相关关系,以及相关的形态、方向。
三、相关的形态(线性相关和非线性相关)
若变量Y与变量x的相关关系表现为线性组合,或绘制的散点图近似地表现为一条直线或直线带,则称之为线性相关。
若变量Y与变量x是非线性组合,或绘制的散点图近似地表现为一条曲线,则称之为非线性相关或曲线相关。
四、相关的方向(正相关和负相关)
当两个变量的变动方向总体上相同,即一个变量增加,另一个变量也相应地增加,或一个变量减少,另一个变量也相应地减少时,两个变量之间的关系属于正相关。
若两个变量变动的方向总体上相反,即一个变量增加的同时,另一个变量随之减少时,两个变量之间的关系属于负相关。
五、Pearson相关系数
相关系数是测定变量之间关系密切程度的量,它能够以数字准确地描述变量之间的相关程度。
要反映不同类型变量数据的相关程度,有不同的相关系数。
重点介绍Pear—son相关系数。
1.定义:
Pearson相关系数是用来度量两个定量变量x和Y之间的线性相关程度,如人均可支配收入与消费支出的相关程度、身高与体重之间的相关程度等等。
2.公式:
3.性质:
(1)r的取值范围在一1~1,即一1≤r≤1。
r>0表明x与Y之间存在正线性相关关系;r<0表明x与Y之间存在负线性相关关系;r值越接近l(或一l)就越正(或负)相关,越接近0,就越不相关。
r=1或r=一1表明2与Y之间为完全相关关系(实际上就是函数关系)。
(2)r具有对称性。
x与Y之间的相关系数rxy和y与x之间的相关系数ryx相等,即rxy=ryx。
(3)r数值大小与x和Y的数据原点及计量尺度无关。
改变x和Y的数据原点或计量尺度,并不改变r数值大小。
(4)r仅仅是X与Y之间线性关系的一个度量,它不能用于描述非线性关系。
这意味着,r=0只表示两个变量之间不存在线性关系,并不表明变量之间没有任何关系,比如他们之间可能存在非线性关系。
(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着X与Y一定有因果关系。
检验:
相关系数的检验可以用t分布检验进行。
检验的具体步骤如下:
首先确定原假设
编:
两变量之间不存在线性关系(H0:
ρ=0)瑟。
:
两变量之间存在线性关系(H。
:
ρ≠0)
其次,计算统计量t值
最后,利用其对应的概率值进行判断,如果概率值小于或等于指定的显著性水平(一般α=0.05),则我们可以拒绝原假设,接受备择假设,即两变量之间存在线性相关关系。
否则不能拒绝原假设,可以认为两变量之间不存在显著的相关关系。
六、一元线性回归分析
1.相关分析和回归分析的区别:
相关分析旨在测度变量之间关系的密切程度,它所实用的测定工具就是相关系数。
而回归分析则是考察若干自变量X与因变量Y之间的数量变化规律的统计方法和技术。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 复习 要点