Ch4StatisticalTechniques.docx
- 文档编号:12958696
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:30
- 大小:143.25KB
Ch4StatisticalTechniques.docx
《Ch4StatisticalTechniques.docx》由会员分享,可在线阅读,更多相关《Ch4StatisticalTechniques.docx(30页珍藏版)》请在冰点文库上搜索。
Ch4StatisticalTechniques
第四章:
统计在管理研究上的应用
引言
我们没有可能在这里如一门统计科那样,完整地介绍统计的知识。
但是,要了解现代的管理知识,如果连一点统计的概念都没有,那也是很困难的。
在读博士班时,我曾经认识一位来自欧洲读工商管理硕士的同学,他在大学时是读文学的,因此从来没有读过计量方面的学科,很可惜,他在选择学校时一定有所疏忽,我们的大学是以计量方法驰名的。
结果是,他的成绩徘徊在不合格的边缘,我们几个跟他交情较好的同学,便设法帮他补习。
由于我的同学都叫我做Chi-Square(χ2;这是一个统计的符号,与我英文名字,Chi-Sum,有几分像),所以我便负责替他想办法在统计一科取得合格。
在替他恶补的过程中,我才发现这真是一个艰难的任务!
原来读文科的人,有些真的是如此害怕数字和与数字有关的知识的。
但是,既然是好同学,我也绝不放弃,在错误和挫折中寻找可能有用的方法。
这同学结果在统计科中刚刚及格,不知是有志者事竟成,还是我和他在补习过程中发现的一套讲解方法有用。
以下就是我替他补习时的重点。
资料性质及机率的概念
首先,统计是一门处理大量数据,并以此作推测和估计的学问。
在能够作出推测和估计前,我们先要掌握几个总结大量资料的概念。
例如一间生产鞋子的企业,它要知道全廊坊成年人(约四百万)的脚的大小尺码,假设它真的有资源把所有廊坊的成年人的脚都量度了,而这家企业是以十个鞋的尺码来区分廊坊人的脚的大小,那么,我们如何把这四百万个数据简单地表达呢?
最简单的方法当然是用如以下的图表了:
人数
(以万为单位)
15
10
12345678910脚的尺码
图一:
断续资料显示图
以上的图表可以说是一目了然,而且它也提供了制鞋公司很重要的生产数据,就是不同尺码占总生产额的比例。
如果这公司的顾客是廊坊一般的成年人,而不是针对某些脚特别大或特别小的人,那么我们顾客的分布便会和上图差不多。
因此,每一尺码的鞋的比例,便应根据上图的分布来计算。
在这里要介绍一个很重要的统计概念:
机率(Probability;有些作者称之为「或然率」,又有些作者称之为「概率」)。
它的意思是某一事情发生的机会,例如我们随意找一个廊坊的成年人,他的脚的尺码会是最小的「机率」是多少?
换句我们日常的话,就是说:
他的脚的尺码会是最小的1号的机会有多大?
从上图中,我们可看到全廊坊共有四百万成年人,其中十万的脚的尺码是1号,所以机率是四百万分之十万,即百分之二点五(2.5%)。
又例如我们随意找一个廊坊的成年人,他的脚的尺码会是2号或更小的「机率」是多少?
从上图我们可看到在四百万的总数中,十万是尺码1号的,十五万是2号的,加起来是二十五万,因此,这名随意找来的人,他的脚的尺码会是2号或更小的机率便是四百万分之二十五万,即百分之六点二五(6.25%)。
这个图表虽然很清楚,但却有一个缺点,那就是我们是为了方便,把脚的大小以十个尺码来代表,如果我们要更精确,使鞋子与顾客的脚形更配合,我们可以加上一些「半码」,变成二十个码,上图便会变得更精密了。
不过,纵然如此,这种资料,仍然祗是「断续」(discrete)的。
对某些数据来说,他可能真的是断续的,例如性别,不是男便是女,是没有在二者中间的。
不过,就脚的大小而言,我们祗是为了方便才会把它们当作「断续」的,真实的情形是,人的脚的大小是「连续」(continuous)的数据,如果以图表显示,例如下图:
连续数据的好处是更精确,以做鞋为例,如果我们祗有十个或二十个码,对很多顾客而言,鞋子肯定不是完全吻合他们的脚的,祗有订制的鞋才会完全吻合,因为订制的意思,便是把人脚的大小,视为连续的,而不是断续的资料。
不过,在计算机率时,连续数据便不似断续数据那么容易。
如果是断续数据(即图一的情况),任何一个或一些尺码出现的机率都很轻易地用以下的分数计算出来:
(1)分子是这个(或这些)尺码出现的总数;
(2)分母是所有尺码出现的总数。
但是,对连续数据而言,尺码是无限的,因此我们不能用这个方法来计算机率。
统计学家借助了数学的方法来解决这个计算机率的问题。
首先,在连续数据中,我们不应该问某一特定尺码出现的机率,这是不能计算的,因为我们有无限的尺码,单一尺码出现的机率便极小极小了,例如尺码刚好为3或3.01,甚至是3.001的机率都很接近零,是没有太大意义的。
所以,对连续数据来说,更有意义的机率问题是某一范畴出现的机会,例如出现尺码介乎3号到5号之间的机率;尺码小于4号的机率;尺码大于7号的机率等等。
在借用了数学的方法后,统计学家证明了以下某范畴内的机率计算方法:
(1)分子是这范畴以下的面积;
(2)分母是全部图形以下的面积。
例如某一制鞋公司如果想放弃尺码大于7号的市场,他们要计算到底会放弃百分之几的市场,便可计算图二中在曲线以下的全部面积作为分母,然后再算曲线下大于7号的面积为分子,便可知道比率了,这面积的比率在图三中显示。
这里我要马上强调的是,在学习和运用统计知识时,我们是无需要自己去计算这些面积的。
但我们必须了解这概念,才可继续以下的介绍。
数据分布的概念
以上的介绍和图表除了说明了「断续」和「连续」资料的不同状况外,也表现了数据的一个重要性质,那就是「分布」的状况。
这些图使我们了解廊坊成年人的脚的大小,基本上是以「中码」为最多,愈偏离「中码」的人数便愈少。
虽然这是很常见的数据分布状况,但是,也有很多不同类型的数据分布,例如「偏左」的(即最多的数据是「小码」的),又或者是「偏右」的分布(即最多的资料是「大码」的)。
为了避免每次都要画图,统计学家希望能用一些简单的概念和数字来描述数据的分布情况。
在没有图画的帮助下,要掌握某一资料分布的情形,统计学家主要以两个概念来表示。
第一个是「中间倾向」(centraltendency),那就是分布的中间数值在那里,例如我们可用所有数据的平均值(averageormean)来作此「中间倾向」的代表﹑也可用中间数(median;即把所有数据由小到大排列而取其刚好在中间的一个)﹑也可用众数(mode;即出现最多次的同一数值)。
假设一个如图二和图三的分布,即没有向左或右偏的分布,则这三个「中间倾向」的数据会是一致的。
如果不一致,那么,他们也可令我们知道这分布的一些情况。
第二个是「分散程度」(dispersion),那就是数据是否很分散,还是较集中而围绕在「中间倾向」数据的附近。
一般而言,我们以「变异量」(variance;或称为「方差」)或它的平方根「标准差」(standarddeviation)来表达,简单而言,「标准差」就是每一数据与所有整体数据平均值的平均差距,因此这数字愈大,代表数据的分散程度愈大,相反而言,「标准差」愈小,则代表数据的分散程度愈小。
现在,让我们介绍几个非常重要的分布。
第一个是常态分布,此分布的特征是对称的,显示其「中间倾向」的三个数字(即平均值﹑中间数和众数)是一样的。
在「分散程度」方面,距离平均值(μ)一个标准差(σ)以内约占整体数据68%,距离两个标准差以内约占整体数据95%,如下图四所示。
第二个重要的分布是「t分布」,基本上此分布与常态分布一样,是对称的,但是它的「分散程度」则教常态分布大,因此距离平均值(μ)一个标准差(σ)以内所占整体数据不到68%,距离两个标准差以内所占整体数据不到95%。
第三和第四个重要的分布是「卡方分布」(即χ2distribution)和「F分布」,这两个分布的共通点是它们并不对称,因此它们三个代表「中间倾向」的数据并不相同,而且都是在开始时较多,它们的分布形状可以图五显示。
数据分布的型态当然可以有很多,以上祗是在一般统计理论中经常会碰到的。
无论如何,我们要了解的是﹕祗要知道数据的分布情况,我们便可知在某一段数值中(即分布图中一段的面积)所占的比率,这一点对于应用统计知识进行推论及测试至为重要。
统计推论﹕信赖区间的计算
有了以上数据分布的概念,我们便可以讨论统计推论的工作。
为什么我们会说是「推论」的工作呢﹖因为在很多时候,我们没有资源收集所有研究对象的数据,承接以上制鞋企业的例子,企业很难有能力量度全廊坊四百万成年人的脚的大小,这四百万成年人的数据我们称之为「母体」(Population)。
但是,企业是有能力从母体中抽取一部分来研究,例如它可委托市场调查公司,量度一定数量廊坊成年人的脚的大小,即研究一个「样本」(Sample),然后根据这个样本的数据,推论(或称为估计;EstimateorInfer)母体的数据。
这个对样本进行研究,然后推论母体情况的工作,是统计学重要的一环。
由于要从样本的数据来推论母体的数据,为了讨论的清晰,我们称母体的数据为「参数」(Parameters),样本的数据为「统计数」(Statistics);我们也会用不同的符号来代表二者,一般而言,我们以希腊字母代表「参数」(例如以μ代表母体的平均值;σ代表母体的标准差),以英文字母代表「统计数」(例如以
代表样本的平均值;s代表样本的标准差)。
由于样本的大小对其作出推论的准确度肯定有影响,即样本愈大,其推论愈准确,所以我们称样本的大小为样本数(SampleSize),一般以英文字母n来代表。
有别于一般的估计,统计学运用了数学上的知识,使我们可确知其得出估计的精确度。
要说明确切的数学知识,是超越了我们在这里的范畴,所以我希望用一个简单的比喻来说明。
假设我们有无限资源来做一个实验,那就是从四百万人的母体中随机地不停抽一千人(即n=1000;或其它任何数目)的样本,每一个样本我们都把它的平均值(
)和变异量(即标准差的平方;s2)记录下来。
如果我们真的抽了无限个样本,便可知道这些样本平均值及变异量的分布(注:
在英文里我们把「样本平均值(
)的分布」(或称「
的抽样分布」)称为「SamplingDistributionoftheMeans」;「样本变异量(s2)的分布」(或称「s2的抽样分布」)称为「SamplingDistributionoftheVariances」;而这些「样本统计数的分布」(或称「统计数的抽样分布」;SamplingDistributionoftheStatistic)的标准差称为「StandardErrorofEstimate」(Se),或简称「StandardError」,其平方(Se2)便是此分布的变异量。
非常有趣的是,「样本平均值(
)的分布」(SamplingDistributionoftheMeans)是常态的,其三个「中间倾向」的数值(即平均值﹑中间数及众数)刚好便是母体的平均值(即μ),而这常态分布的变异量(即「StandardError」的平方)则为母体的变异量除以样本数(即「σ2/n」;在这个例子中n是一千);如果我们每次抽的样本数很少,例如少于三十,那么「样本平均数的分布」则为「t分布」,而不是常态分布。
至于「样本变异量的分布」(SamplingDistributionoftheVariances)则是一个「卡方分布」。
当然,要求出任何「统计数的分布」(SamplingDistributionoftheStatistic)及其「StandardError」,理论上我们都可用以上对母体作无限抽样的方法来知道,但是,这种抽样的方法是不需要的,因为统计学家透过数学的推论便可求得在不同的情况下,「统计数的分布」的确实情况。
无论如何,在这里我们要把握的是,我们可以知道「统计数的分布」的状况。
由于这个知识,所以我们可以知道由样本统计数推论母体参数的精确度。
以下我们用母体平均值(即μ)的估计为例子来加以说明。
承接我们制鞋厂的例子,假如市场调查公司受鞋厂委托后在廊坊的成年人中随机抽了一千人的样本(即n=1000),得知其平均值为
,变异量为s2。
由于我们知道「平均值的分布」(SamplingDistributionoftheMeans)为常态分布,而此分布的三个「中间倾向」的数值为我们要估计的母体平均值(即μ),而变异量为母体的变异量除以样本数(即「σ2/n」;它的平方根即为这一分布的标准差(即「StandardError」),我们这里称为A),那就是说市场调查公司的样本是在图六的分布中抽出来的其中一个。
如果市场调查公司所抽的样本确实是随机而没有偏差,那么祗要把
加上2A作为上限,然后把
减去2A作为下限,我们可以说母体的平均值(即μ)会在此上下限(即在
+2A及
-2A)之间的机会将为百分之九十五(95%)。
为什么呢﹖因为市场调查公司所抽的样本有百分之九十五的机会是在μ-2A到μ+2A之间,祗要是在这范围内的样本,μ便一定在
+2A及
-2A之内。
除非我们那么不幸,市场调查公司所抽的样本刚好在μ-2A到μ+2A之外,那么μ便不在
+2A及
-2A之内了,不过,这样的机会祗有百分之五(5%)。
虽然我们不一定知道σ2,但可以用s2代替,从而估计A的数值,当然,我们也可用对卡方分布的了解﹑样本的s2及样本数的数据,计算σ2在95%的机率(或任何机率)内的上下限,从而得出μ在95%的机率时其更确定的上下限。
这个对母体参数在一定机率内计算出来的上下限,我们称为信赖区间(ConfidenceInterval)。
除了平均值和变异量(或标准差)外,其它的资料,例如民意调查中支持某一政策的比率(母体的比率以θ为代表;样本的比率以P为代表);两个母体平均值的分别(例如女性平均寿命与男性平均寿命的分别);两个概念之间的相关系数(母体的相关系数以ρ为代表;样本的相关系数以r为代表)等等,都可以用相同的原理,计算出较精确的﹑对母体参数的信赖区间,即在某一范围内的机率有多大。
统计推论﹕由信赖区间到统计测试
基于信赖区间的知识,我们可进一步建构正式的统计测试。
基本上,统计测试的步骤跟我们用主观判断来下结论的时候,在本质上和逻辑上并无分别,我们现在先以探讨求证某一假设的步骤来说明:
(1)订立假设。
收集资料的目的在看我们的假设是否能成立,一般而言,我们先会采取较保守的态度,例如我们刚认识一位新朋友,会假设:
「他是一个好人」。
直到我们有足够证据推翻这假设之前,我们会对他尊重。
在科学研究中,我们主要的工作是探求变项(或称为构念、概念)之间的因果关系,用保守的方法,我们先会假设:
「我们探讨的自变项与依变项之间并无因果关系。
」(以统计资料而言,我们可以运用的母体的相关系数作测试,保守假设为ρ=0,因为在数学上ρ=0代表两个变项没有关连;如果我们探讨的是性别与寿命是否相关,则保守假设为﹕男性平均寿命与女性平均寿命的差别是零),直到我们认为有足够证据推翻这假设之前,我们会接受这假设。
(2)抽样:
收集资料。
在日常生活中我们不能每天24小时地观察一个人的全部行为,因此祗能根据有机会观察的一些行为样本,以检讨对新认识朋友原来的假设(即:
「他是一个好人」)是否应继续维持,例如看到他处理十件事,在其中一件中他对人不礼貌,我们会问:
「一个好人在处理十件事时,其中有一次对人不礼貌的机率有多大?
」假如我们判断这机率还是颇大的(例如我们自己有时也会对人不礼貌),我们便不会推翻原来的假设,如果我们认为这机率很小,便会推翻这假设,改而接受另外的看法:
「他是个不太好的人」。
在科学研究中,我们也是透过样本的数据来判断是否有足够证据来推翻原来的假设,与日常生活一样,透过统计方法作的判断,还是会错的,因为我们只能就机率的大小来下判断而已。
(3)机率的估计。
在日常生活的例子中,我们只能主观地判断行为样本出现的机率。
在科学的抽样研究中,如果抽样的方法没有偏差,而样本的代表性没问题(例如样本数不能太小),再加上在资料的性质与统计方法的假设大致吻合,那么我们可以较准确地运用信赖区间的计算,估计在原来保守假设正确的情况下,我们会观察到这样的一个样本的机率有多大,这个机率我们称为P值(PValue)。
如果这P值很小,我们便推翻原来保守的假设。
承接以上第
(2)点的例子,如果我们是以母体的相关系数来成立保守假设,则我们便以样本的r来估计ρ的信赖区间,由此计算出P值;如果我们以母体的男性平均寿命与女性平均寿命的差别来成立保守假设,则我们便以样本中男性平均寿命与女性平均寿命的差别来估计母体此一参数的信赖区间,由此计算出P值。
(4)下结论。
P值到底要小于甚么数值,我们才会推翻原来较保守的假设?
这自然没有绝对的答案,不过,在社会科学的研究中,我们一般接受的是百分之五(0.05),如果计算出来的P值小于百分之五,我们便会推翻原来保守的假设,而接受另一结论,例如:
两个变项是有关连的;男性平均寿命与女性平均寿命是有差别。
在统计学的用语中,如果P值比我们设定可接受的小,我们会说样本提供了「显著」(significant)的证据,让我们推翻原来保守的假设,或说样本提供的证据达到「显著程度」(significantlevel)。
虽然统计测试是根据数学方法而得出的,但在应用时必须小心一些实际的限制。
由于运算上的系统化,很多时候统计方法被滥用了,在使用统计方法前,是要很慎重考虑的,否则便容易流于胡乱判断变项之间的因果关系,对增进了解或知识上的探索反而有害而无益。
以下是一些很重要的考虑:
(1)理论架构。
统计只是一种工具,它不能取代我们原来根据理论背景而下的假设,此工具是用来检定这些假设的,我们绝不应胡乱分析,然后倒过来制定假设。
(2)机率性的测试。
虽然以数学知识来作统计测试可使我们下较精确的结论,但必须紧记结论祗是机率性的,例如以95%信赖区间作基础,当我们从样本的数据中推翻保守的假设时,其实仍有百分之五的机会我们的结论是错的,我们称这种错误为「第一类错误」(TypeIError);同样地,当我们基于样本的数据而没有推翻保守的假设时,其实结论还是有可能错的,即事实上保守假设是错的,这种错误的可能性视乎我们样本数的大小而定(样本数愈大,此错误的机率愈小),我们称这种错误为「第二类错误」(TypeIIError)。
除非我们能直接掌握母体的参数而不需要由样本来估计,发生这两种错误的机率是不会等于零的。
(3)样本的代表性。
如果样本不能代表群体,则无论我们用任何方法分析样本的数据,对群体的结论还是不会正确的。
除了抽样方法不能偏差外,样本数绝不能太小,否则统计也只变成碰巧的工具而已。
(4)统计方法的假定。
每一种统计方法都是在某种假定之下发展出来的,例如对群体分布的假定(如常态分布)、样本数(一般均为大样本)、抽样方法(如随机抽样法)等等,如果事实与这些假定偏离太远,则这些统计方法所下的结论便不可靠。
因此,在应用每一方法前,需检查我们面对的情况,是否与这方法的假定相符,纵然不完全一致,也不能偏离太远。
(5)数据的可靠性。
除了抽样方法及样本数外,数据的信度(reliability)和效度(validity)会影响数据的可靠程度(在下一章我们会较详细说明信度和效度的概念),如果原来的资料便不可靠,统计方法跟其它任何胡乱判断其实并无分别,数量的方法是不能补救数据的错误的。
统计方法应用在研究中的例子
在举例之前,我们先要简单地说明数据的性质。
基本上,数据是以数字来代表某一概念,把数字代表概念的过程我们称为「测量」(Measurement),例如我们用温度计测量温度,是以数字字代表「温度」此一概念的过程,而温度计则为「测量工具」;又例如我们以一系列问题测量雇员的工作满足感,是以数字代表「工作满足感」此一概念的过程,而「一系列的问题」则为「测量工具」。
经测量得出的数字可以有四种不同的尺度,我们可了解尺度为数字的精确度。
第一层的尺度是「类别尺度」(NominalScale),它包括标记或类别,例如我们以1代表男性,2代表女性,虽然数字代表了性别此一概念,但1和2在这里祗是分类,没有数值的意义,不可作一般的数学运算。
第二层是「等级尺度」(OrdinalScale),数字表示了变项(或概念)的多少(或大小),例如我们以1代表完全不用某一品牌的产品的人,以2代表祗用小量这个产品的人,以3代表大量使用这产品的人。
在这里我们肯定三者从小到大的等级,但3与2的分别,不一定跟2与1的分别是一样的;又例如我们要求雇员排列不同的员工福利项目的重要性,以1代表最重要,余此类推。
第三层是「等距尺度」(IntervalScale),数字除了代表变项(或概念)的多少(或大小)外,还反映了多少(或大小)的程度,例如在智力测验的得分中,100与90的分别跟100与110的分别,程度上是一样的;又例如我们测量雇员的工作满足感的一系列问题,以五分点作响应的选择,即5为极满足,1为极不满足,这样的响应设计,所得数据也可假定为达到「等距尺度」。
第四层是「等比尺度」(RatioScale),数字除了代表变项(或概念)的多少(或大小)及程度外,还有一个绝对的零点,因此它们也反映了一切在数学中公认的数值,例如0代表完全不吸烟的人,1代表每天吸一枝烟的人,2代表每天吸两枝烟的人,余此类推。
了解这四个尺度的分别是很重要的,因为每一个统计的方法,都是根据原来母体的资料特质而推论出来的,还记得我们以从母体中无限抽样来得知「样本相关统计数的分布」、然后计算相关统计数的信赖区间吗﹖那就已清楚说明这个计算信赖区间的方法,是假设了母体的数据是何种尺度的,例如「平均值」代表了最少是「等距尺度」的资料;而「民意调查中支持某一政策的比率」便代表了「类别尺度」的数据。
因此,在应用统计知识来作信赖区间的计算或作统计测试时,先要确保所用的方法是符合数据的假设,包括它们的尺度层次。
除了不同的尺度,经测量过程得出的数据还有另外一个重要性质,那就是它们的信度和效度。
信度即可靠性,是指测量结果的一致性或稳定性而言。
假如我们以同一测量工具在不同时间测量同一事物或物体的特征,却得到很不一样的结果(即一致性和稳定性很低),那么这测量便不可靠,我们没法判断其测量结果的准确性。
效度即正确性,指测量工具确能测出其所欲测量的特质之程度而言。
测验是根据行为样本(例如对问题的答案或反应),对所欲测量的特质作间接的推断,只能达到某种程度的正确性,故测验的效度很难是绝对的。
关于测量的信度和效度,我们会在下一章较详细介绍。
在以上两个重要的了解下,让我们看以下的实际例子。
例子一﹕自变项与依变项均为类别尺度
假如我们要探求性别和吸烟与否是不是有关系,我们面对的变项均为类别尺度,在统计方法上我们可用卡方测试(因为统计学家设计的测试数据为卡方分布)。
例如我们访问了200人,问他们是否吸烟及记录他们的性别,得到以下数据:
吸烟与否
吸烟者
非吸烟者
总数
性别
男
45
55
100
女
52
48
100
对这问题,卡方测试的步骤是:
(1)订立假设:
保守假设H0:
性别与吸烟无关。
相反假设H1:
性别与吸烟有关。
(2)抽样:
搜集数据(我们已得以上数据)。
(3)机率的估计。
卡方测试的方程式为:
而r=行的数目
c=列的数目
f=观察所得的数目
e=在H0为正确时的期望数目
在我们的例子中,当H0是正确,而母体的男女比率为一比一时,及吸烟与非吸烟者的比率也是一比一时,则我们应期望四个观察数目均为50,所以:
当H0是正确时,我们会观察到这样的一个样本的机率有多大呢?
统计的知识告诉我们:
如果这计算得来的2大于:
(在这里即
),
则我们的机率是少于百分之五。
查证统计图表,可得
是3.84。
(4)下结论:
由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ch4StatisticalTechniques