学位班统计学复习资料18章.docx
- 文档编号:2785192
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:17
- 大小:403.87KB
学位班统计学复习资料18章.docx
《学位班统计学复习资料18章.docx》由会员分享,可在线阅读,更多相关《学位班统计学复习资料18章.docx(17页珍藏版)》请在冰点文库上搜索。
学位班统计学复习资料18章
第1章绪论
1.掌握6组基本概念:
(1)总体与样本
总体(population):
指根据研究目的确定的同质研究对象的全体。
样本(sample):
指从总体中随机抽取部分研究对象。
(2)同质与变异:
同质:
各比较组织之间的非研究对象尽可能相同。
变异:
同质基础上个体之间的差异。
(3)参数和统计量
参数:
描述总体统计特征的指标。
统计量:
描述样本统计特征的指标。
(4)变量与变量分类(课本P7)
变量:
反应个体特征或属性的的量,可分为定量变量和定性变量两大类。
定量变量:
又称数值变量,计量资料,可用定量的方法测量指标数值的大小,常分为连续变量(任何数值,如身高、体重、血压等)和离散变量.(取正整数,如脉搏、人口、住院天数等)
其变量值是定量的,表现为数值大小,一般有度量衡单位。
定性资料:
又称分类变量,计数资料,按观察单位按照性质或类别进行分组,常可划分为有序变量(如高低、轻重等)和名义变量(如血型、职业等)。
其观察值是定性的,表现为互不相容的类别或属性,均为离散变量。
(5)抽样研究与抽样误差
抽样研究:
指从调查总体中按照随机原则抽取一部分个体作为样本,并以对样本进行调查的结果来推断总体的方法。
抽样误差:
也称随机误差,由于抽样而引起的总体指标(参数)与样本指标(统计量)之间的差异。
抽样误差是由个体变异或其它随机因素造成的,是不可避免的,但可通过增加样本含量降低抽样误差。
抽样误差越小,用样本推断总体的精确度越高,反之精确度越低。
(6)随机事件与概率
随机事件:
随机试验的结局事先是不确定,称为随机事件。
概率:
事件发生的可能性大小称为概率,一般用大写P表示。
取值在0-1之间,0和1表示肯定不发生和肯定发生,介于0-1之间为偶然事件,数值越大发生几率越高。
当P≤0.05或≤0.01时称为小概率事件。
2.统计工作基本步骤:
研究设计(最关键、决定成败)、数据收集、数据整理、统计分析、结果报告
第二章统计描述
1.(定量资料的统计描述)频数分布有两个重要特征:
集中趋势和离散趋势
(1)描述数据分布集中趋势的指标
算术均数、几何均数、中位数。
(2)描述数据分布离散程度的指标
全距、四分位数间距、方差、标准差、变异系数。
2.各指标意义:
描述内容
指标
意义
适用场合
平均水平
集中趋势
均数
个体的平均值
对称分布
几何均数
平均倍数
取对数后对称分布
中位数
位次居中的观察值
①非对称分布;②半定量资料;③末端开口资料;④分布不明
众数
频数最多的观察值
不拘分布形式,概略分析
调和均数
基于倒数变换的平均值
正偏峰分布资料
变异度
离散趋势
全距
观察值取值范围
不拘分布形式,概略分析
标准差
(方差)
观察值平均离开均数的程度
对称分布,特别是正态分布资料
四分位数间距
居中半数观察值的全距
①非对称分布;②半定量资料;③末端开口资料;④分布不明
变异系数
标准差与均数的相对比
①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较
分析:
(1)对称分布资料的统计描述常用:
均数(总体均数μ,样本均数
)、标准差(总体标准差σ,样本标准差
),
±
(2)非对称分布资料的统计描述常用:
中位数M、四分位间距(QL,QU),
(3)变异系数:
标准差与均数的相对比,用百分数表示。
计算公式:
CV=S/
×100%
3.定性资料的统计描述:
计算阳性事件的频率和频率分布、强度、比
(1)频率:
估计总体中某一结局发生的概率。
频率分布:
估计总体中所有可能结局发生的概率。
强度:
估计总体中单位时间内某一结局发生的概率
比:
估计两个指标的相对大小
4.应用相对数时应注意哪些问题?
(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。
(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。
(4)相对数间的比较须注意可比性,除研究因素外,其它影响因素尽可能相同。
包括:
观察对象同质、研究方法相同、观察时间相等,在专业上有意义的影响因素接近均衡,总之,条件齐同。
5.编制统计表的原则和一般要求:
编制统计表的原则:
(1)结构简单、层次分明,
(2)内容安排合理、重点突出、数据准确。
统计表的结构要求:
由标题、标目、线条、数字和注释构成
6.统计图
图形
适用资料
实施方法
条图
组间数量对比
用直条高度表示数量大小
直方图
定量资料的分布
用直条的面积表示各组段的频数或频率
百分条图
构成比
用直条分段的长度表示全体中各部分的构成比
饼图
构成比
用圆饼的扇形面积表示全体中各部分的构成比
线图
定量资料数值变动
线条位于横、纵坐标均为算术尺度的坐标系
半对数线图
定量资料发展速度
线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系
散点图
双变量间的关联
点的密集程度和形成的趋势,表示两现象间的相关关系
箱式图
定量资料取值范围
用箱体、线条标志四分位数间距及中位数、全距的位置
茎叶图
定量资料的分布
用茎表示组段的设置情形,叶片为个体值,叶长为频数
第3章概率分布
1.符合正态分布的条件:
(1)频数分布以均数为中心、左右两侧基本对称,
(2)靠近均数两侧的频数较多,两侧距均数较远时,频数逐渐减少。
2.正态分布五个特征:
(1)正态分布曲线在横轴上方,均数所在处最高;
(2)正态分布以均数为中心,左右对称;
(3)正态分布有两个重要参数μσ;
(4)正态曲线±1σ,标准正态±1处各有1个拐点;
(5)正态分布的面积分布有一定的规律性。
3.正态分布的曲线下面积分布规律(参考教材p41)。
(1)正态曲线与横轴所夹的面积为1.
(2)μ士1.64σ范围内占正态曲线下面积的90%,也就是说有90%的变量值分布在此范围内。
(3)μ士l.96σ范围内占正态曲线下面积的95.0%,也就是说有95.0%的变量值分布在此范围内。
(4)μ士2.58σ范围内占正态曲线下面积的99.0%,也就是说有99.0%的变量值分布在此范围内。
4.正态分布两个参数的意义:
(1)μ均数为位置参数,在标准差σ不变的情况下,均数越大,曲线向右移动,形状不变。
(2)σ为形状参数,在均数μ固定不变的情况下,σ越大,离散程度越大,正态分布曲线越平坦(矮胖),反之越陡峭(瘦高)。
5.标准正态曲线
均数为0、标准差为1的正态分布被称为标准正态分布,通常记为
,又称为Z分布。
6.医学参考值范围定义及制定
医学参考值范围:
又称正常值范围,医学上常包括绝大多数正常人的某指标值的波动范围称为该指标的正常值范围。
确定参考值范围的单双侧(根据指标特征):
一般生理物质指标多为双侧、毒物指标则多为单侧。
确定百分位点:
一般取95%或99%。
(数值要求记忆)
例题
某市20岁男学生160人的脉搏数(次/分钟),经正态性检验服从正态分布。
求得
=76.10,S=9.32。
试估计脉搏数的95%、99%参考值范围。
解:
脉搏数的95%正常值范围为:
±1.96S=76.10±1.96(9.32)=57.83~94.37
脉搏数的99%正常值范围为:
±2.58S=76.10±2.58(9.32)=52.05~100.37
第4章参数估计
由样本信息来推断总体(由样本统计量来推断总体参数),这种推断称为统计推断。
1.标准误的概念及意义
(1)概念:
这种由个体变异产生的误差造成样本和样本均数之间,样本和总体均数之间的差异,称为均数的抽样误差(samplingerror),均数的抽样误差称为标准误(standarderror)
(2)意义
标准误的大小反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异。
SX越小说明样本均数与总体均数越接近,由样本推断总体均数越可靠。
SX越大说明样本推断总体均数的可靠性越小,说明样本均数与总体均数越远。
2.抽样误差(标准误)与标准差区别
抽样误差与标准差虽然都是表示离散程度的指标,但两者是有区别的。
(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映样本均数的离散程度。
标准差大,表示个体变异大,说明个体围绕均数分布较离散;标准差小,表示个体变异小,说明个体围绕均数分布较密集。
(2)标准误小于标准差。
(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不
随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。
标准误大,说明用样本均数代表总体均数的可靠性小;标准误小,说明用样本均数代表总体均数的可靠性大。
3.t分布与正态分布比较的区别(t分布曲线,样本量n≤30):
(1)都是单峰,以0为中心,左右对称的单峰分布;
(2)与标准正态分布相比,t曲线峰值较低,两端翘起
(3)t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
(4)t分布的概率密度曲线下面积有一定的规律性。
4.参数的估计
(1)参数估计:
用样本指标来估计总体参数。
有两种方法:
点估计(pointestimation)和区间估计(intervalestimation)
(2)置信区间的准确度和精确度:
置信区间(CI):
按预先给定的概率估计包含未知总体参数的区间范围。
其统计上习惯用95%(或99%)置信区间表示总体均数95%(或99%)的可能在某一范围内。
置信区间有准确度和精确度两个要素。
一准确度由置信度(1-α)的大小确定,即区间包含总体均数的概率大小,当然越接近1越好,如置信度99%比95%好。
二精确度是置信区间宽度的一半,反映区间的长度,当然当度越小越好。
在样本例数确定的情况下,两者是矛盾的。
5.置信区间与参考值范围的区别
练习表4-1置信区间与医学参考值范围的区别
区别
置信区间
参考值范围
含义
用途
计算公式
总体参数的波动范围,即按事先给定的概率100(1α)%所确定的包含未知总体参数的一个波动范围
估计未知总体均数所在范围
未知:
已知或未知但n≥30,有
或
个体值的波动范围,即按事先给定的范围100(1α)%所确定的“正常人”的解剖、生理、生化指标的波动范围
供判断观察个体某项指标是否“正常”时参考(辅助诊断)
正态分布:
偏峰分布:
PX~P100X
6.置信区间的估计:
(1)正态近似法
当样本含量n足够大,且样本率P和(1-P)均不太小,如nP或n(1-P)均≥5时,样本率的分布近似正态分布。
则总体率的可信区间可由下列公式估计:
总体率(π)的95%可信区间:
p±1.96sp
总体率(π)的99%可信区间:
p±2.58sp
(2)查表法当样本含量n较小,如n≤50,特别是P接近0或1时,则按二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量n和阳性数x参照专用统计学介绍的二项分布中95%可信限表。
第5章假设检验
1.假设检验中α与P的联系与区别。
(如果一个事件P≤0.05就把这个事件称为小概率事件,并用α为概率的界值。
)
值是决策者事先确定的一个小的概率值,常取=0.05。
P值是在
成立的条件下,出现当前检验统计量以及更极端状况的概率。
P≤时,拒绝
假设。
2.假设检验的基本步骤
建立假设——计算统计量——确定P值——作出推断结论
(1)建立假设,确定检验水准α
1)建立检验假设,
H0:
μ=μ0或μ1=μ2称为零假设,该假设两个总体的不同是由抽样误差造成。
H1:
μ≠μ0或μ1≠μ2称为备择假设,该假设两个总体的不同是由本质不同造成。
2)确定检验水准α,在检验假设之前,要根据资料的性质和研究目的,确定作双侧检验还是单侧检验?
通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。
(2)根据研究目的和设计类型选择适合的检验方法
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。
对双样本资料,要注意区分成组设计和配对设计的资料类型。
如果资料里有"配成对子"字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。
(3)确定P值并作出统计推断
若:
P≤α拒绝H0,接受H1,有统计学意义(统计结论)专业结论:
可认为‥‥不同(或不等)。
若:
P>α不拒绝H0,无统计学意义,专业结论:
尚不能认为‥‥不同(或不等)。
注意:
不拒绝H0并不等于接受H0,此时尚没有足够的理由认为H0成立,从探讨研究的观点来看,暂时“接受”它(H0)或待观察。
3.I型和II型错误:
(1)I型错误指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用
表示;
(2)II型错误,指接受了实际上不成立的H0,这类“存伪”的错误称为II型错误,其概率大小用
表示。
1-
为检验效能或把握度。
两者关系:
α大β小,α小β大。
注意:
要同时减少α及β唯一方法增大样本含量,当样本例数确定后选α来控制β。
4.t检验的应用条件:
(1)各样本来自相互独立
(2总体呈正态分布
(2)各总体方差齐性
t检验的类型:
单样本t检验,独立样本t检验,配对t检验
注意:
t检验应用前需做方差齐性检验:
①方差齐性检验用双侧;
②样本含量较小时,需要检验方差是否相等;
③当n1和n2均大于50时,不必做方差齐性检验,样本越大,抽样误差越小(变异减小)。
第六章两样本资料的比较
1.两样本比较时,从设计类型分为完全随机设计和配对设计,从数据分析方法分为参数检验和非参数检验
完全随机设计(completelyrandomdesign):
完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计(paireddesign):
是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不同处理组。
配对的因素是影响实验效应的主要非处理凶素。
2.掌握两独立样本定量资料的统计分析思路:
(1)两样本均来自正态总体且总体方差齐时用t检验,
(2)两样本来自正态总体但总体方差不齐时用t’检验或秩和检验,
(3)当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验;
3.掌握配对设计的含义及两配对样本定量资料的统计分析思路:
对于配对设计定量资料的统计分析,若差值服从正态分布,可采用配对t检验,否则,采用配对资料的符号秩和检验;
4.掌握两样本秩和检验的优缺点。
(1)基本概念:
当两组小样本资料不符合条件,方差不齐,两组资料不符合正态分布,此时,用两组独立样本秩和检验,非参数检验。
(2)主要特点:
优点——是不受总体分布的限定,适用范围广,应用时可以不考虑被研究对象为何种分布或分布是否已知,对数据要求不像参数检验那样严格,包括无法测量得到,而只能以优劣,次序先后等级资料或开口资料。
缺点——但信息量损失较大,较粗略。
。
。
。
5.对于完全随机设计两样本定量资料的比较,如何选择统计方法?
(重要)
(1)完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。
(2)如果资料来自正态总体且总体方差齐,采用t检验;
(3)如果满足正态性但总体方差不齐,采用t′检验;
(4)当两者都不满足时,才考虑选用秩和检验。
当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。
第七章多重定量资料的比较
1.掌握单因素方差分析的基本思想;
(1)定义:
实验设计中考察的实验因素只有一个,而且实验因素的水平数k≥3时,称单因素多水平设计,使用单因素方差分析处理。
(2)基本思想:
将总变异分解为几部分(总变异、组间变异、组内变异三种变异关系),其自由度也分解为相应的几部分,推断由某种(处理)原因所引起的变异是否有统计学意义?
总变异受观察值的个数影响,与总的自由度有关;组间的变异指标,反映了处理因素的作用;组内变异反映了观察值的随机误差
(3)常用公式:
,
vTR=k-1,vE=n-k
F符合自由度为(k-1,n-k)的F分布,F值接近1,则可认为均值只来源于随机波动。
若F>1,且F>Fα,(k-1,n-k),则P<α,……。
2.方差分析的应用条件
①各样本是相互独立的随机样本,且来自正态分布总体。
②各样本的总体方差相等,即方差齐性(homoscedasticity)。
3.方差分析基本步骤
⑴建立假设,确定检验水准
⑵计算统计量
⑶确定P值,作出推断结论
注意:
当F
当F≥Fα(ν组间,ν组内),P≤α拒绝H0;接受H1,有统计学意义。
可以认为多个总体均不全相同,即多个总体均数中至少有两个不同。
至于多个总体均数中哪些不同?
需要进行多个均数间的两两比较
参见教材P572~577附表C6(ν组间为分子自由度,ν组内为分母自由度。
)
4.多组定量资料比较时,统计处理的基本流程是什么?
(1)应用条件进行检验,即方差齐性及各样本的正态性检验。
(2)若方差齐性,且各样本均服从正态分布,选单因素方差分析。
(3)若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。
(4)方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两两比较。
5.多独立样本秩和检验的应用范围
方差不齐或样本不满足正态型分布
第八章定性资料的分析比较
1.掌握四格表资料检验的基本公式及各公式的适用条件;
(1)n≥40且每个格子T≥5,可用基本公式或专用公式,不用校正。
基本公式:
χ2=∑(A-T)2/T
专用公式:
χ2=∑(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)
(2)n≥40,但只要有一个格子T在1≤T<5之间,需校正。
校正公式:
基本公式:
χ2=∑(|A-T|-0.5)2/T
专用公式:
χ2=∑(|ad-bc|-n/2)2n/(a+b)(c+d)(a+c)(b+d)
(3)n<40或T<1,用Fisher确切概率法。
2.配对四格表检验的基本公式及各公式的适用条件;
(1)同一样品用两种方法处理,观察阳性和阴性个数。
判断两种处理方法是否相同。
(2)b+c>40时,χ2=(b-c)2/b+c;
(3)b+c<40时,校正公式:
χ2=(|b-c|-1)2/b+c
3.R×C表χ2检验的应用注意事项
(1)对R×C表,不易有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。
出现某些格子中理论频数过小时怎么办?
①增大样本含量(最好!
)
②删去该格所在的行或列(丢失信息!
)
③根据专业知识将该格所在行或列与别的行或列合并。
(丢失信息!
甚至出假象)
(2)多组比较时,若效应有强弱的等级,如+、++、+++,最好采用后面的非参数检验方法。
χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。
第九章两变量关联性分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学位 统计学 复习资料 18
![提示](https://static.bingdoc.com/images/bang_tan.gif)