第三章 SSS数据的预处理.docx
- 文档编号:15624719
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:23
- 大小:32KB
第三章 SSS数据的预处理.docx
《第三章 SSS数据的预处理.docx》由会员分享,可在线阅读,更多相关《第三章 SSS数据的预处理.docx(23页珍藏版)》请在冰点文库上搜索。
第三章SSS数据的预处理
第三章SPSS数据的预处理
为什么查进行预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:
数据的排序
变量计算
数据选取
计数
分类汇总
数据分组
数据预处理的其他功能:
转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
3.1数据的排序
3.1.1数据排序的作用
3.1.2数据排序的基本操作
将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。
仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:
(1)执行Data→SortCases(观测量分类)命令,打开SortCases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sortby框中,不妨称移入该框的变量为By变量。
选择By变量的意义是将按这个变量对观测量进行分类整理。
如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。
分类整理将按每一个By变量层叠分类整理。
例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
(3)在SortOrder栏中选择一种排序方式。
如对某分类变量选择Ascending(升序),则在Sortby框里该变量名之后用连线连接Ascending;如选择Descending(降序),该变量名连接Descending。
各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。
在我们引用的数本来有一个Order(序号)变量,它的值为自然数顺序。
按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。
如果文件缺少这样一个变量,经过分类的文件将不能恢复原状。
SPSS的许多系统数据文件中都包含一个标志观测量序号的“id'’(单词identity的头两个字母)变量,它就可以起到这个作用。
3.2变量计算
3.2.1变量计算的目的
略
3.2.2SPSS条件表达式
条件表达式(If..)及其对话框的使用。
有时候,仅仅需要对一些符合某些特定条件的自变量的观察值来进行计算。
例如,在记录某年级3班和6班学生成绩的数据文件中,我们只需要了解3班女同学的学习情况,需要计算她们各门功课平均成绩,即需选择满足条件“sex=0&class=3”(即三班女学生)的观测值来计算。
当条件表达式“sex=0”和“class=3”同时为真时,计算平均成绩。
对使表达式为假的或缺失的观测量就不计算这个值,对应于这些观测量,新变量的值为系统缺失值。
在ComputeVariable对话框中单击If…按钮,打开IfCases条件对话框。
对话框上方有两个单选项:
●Includeallcases:
对所有观测量计算新变量值,相当于不设条件,为系统默认的选项。
●Includeifcasessatisfiescondition:
对满足条件的观测量计算新变量值。
此时,源变量清单栏、表达式栏、函数栏同时被激活,将条件表达式输入表达式框。
单击Continue按钮对设定的条件表达式加以确认,返回ComputeVariable主对话框。
条件表达式的建立规则是:
条件表达式中至少要包括一个关系运算符,也可以使用逻辑运算符,并且可以通过关系(或逻辑)运算符连接多个条件表达式。
各项选择确认后,单击OK。
系统将根据表达式和条件计算新变量的值,并且将其结果显示到数据窗口的工作文件中
3.2.3SPSS算术表达式
在Compute对话框中定义了计算表达式、目标函数,以及设置了计算条件后,单击主对话框的Paste按钮,系统随即打开Systax窗口,该窗口显示如下格式的命令语句。
(1)未设置计算条件情况下,COMPUTE命令语句:
COMPUTE变量名=计算表达式.
EXECUTE.
其中:
●命令关键字COMPUTE。
●变量名即定义的目标变量名,它既可以是在主对话框Taget框中新定义的变量名,也可以是当前工作文件中已经存在的变量。
●=等号。
●计算表达式,表达式后接一个点“.”表示语句中止。
计算表达式中的变量必须是工作文件中存在的变量。
●“EXECUTE.”为执行语句。
例如,假设表达式中的变量都是当前工作文件已经定义过的变量,则下列语句都是合法的COMPUTE命令:
COMPUTEaverage=(math十physical十chemical)/3.
COMPUTEaverage=mean(scoreltoscore5).
COMPUTEage=2002—birthday.
COMPUTEsales=quantity*price.
COMPUTEpredict=123.55+0.875*x1/(1+0.025*EXP(-x2)).
用鼠标将COMPUTE命令和EXECUTE命令选中,单击Syntax窗口工具条中的箭头按钮或执行RUN→ALL菜单命令,计算结果将显示到数据窗口。
掌握COMPUTE命令的结构后,需要执行变量计算命令时,可以直接打开Syntax窗口自行编写COMPUTE命令语句。
而且允许并列多个COMPUTE命令语句,这样可以一次计算多个新变量值,大大地提高计算效率,
(2)设置计算条件情况下,IF命令语句:
IF(关系表达式或逻辑表达式)新变量=计算表达式.
EXECUTE.
表示在关系表达式或逻辑表达式为真的条件下计算新变量值。
例如,下列语句都是合法的If命令:
IF(sex=1)salary=0.95*salary十125.
IF(score>=90Ortotal>450)grade=1
IF(age>=15&age<=20)count=age+3.
IF(b**2-4*a*cGE0andaNT0)root=age+3.
用鼠标将IF命令行到EXECUTE命令行选中,单击窗口中的箭头按钮或执行Run→All菜单命令,计算结果将显示到数据窗口。
与
(1)相同也允许同时并列多个IF命令语句,也可以和COMPUTE命令语句并列,执行新变量的计算。
SPSS的每个统计功能对话框中都设有Paste按钮,当对话框内选项设置确定以后,单击该按钮,系统按照设定的选项将需执行的命令以SPSS语法程序显示在Syntax窗口,在该窗口可以进一步地编辑,然后执行Run→All菜单命令,或者选择其中部分程序语句,执行Run→Select菜单命令。
输出结果或显示于数据窗口,或显示于Output窗口。
要深入了解SPSS语法命令,建议同学们在每次运行SPSS命令时,都遵照上述做法进行即可,本书将不再介绍其他语法命令。
3.2.4SPSS函数
SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。
这些程序都有各自的名字称为函数名。
执行这些程序段得到的计算结果称为函数值。
函数书写的具体形式为:
函数名(参数)
SPSS有约180个内部函数,其中包括数学函数、逻辑函数、缺失值函数、字符串函数、日期函数等。
函数表达方法是在函数名(即函数的几个关键字)后的括号中列出自变量和参数,不同的函数对自变量和参数的要求是不同的,调用之前必须明确对自变量和参数的要求,要给参数赋以恰当的数值。
我们将SPSS函数列于书末的附录中供用户参考。
下面仅就其中最大的一类数学函数(125多个)作简要介绍。
SPSS的数学函数均为数值型函数。
各函数的自变量可以是符合取值范围要求的数值表达式。
数学函数(设arg表示自变量)中包括:
(1)算术函数,如三角和反三角函数、指数和对数函数、四舍五入函数RND(arg)、截尾函数TRUNC(arg)、求余函数MOD(arg,modulus)等。
设自变量arg=-5.6,则四舍五入函数RND(—5.6)=—5、截尾函数TRUNC(—5.6)=—4。
又如arg=75,则MOD(75,10)=5。
(2)统计函数,即数理统计中的统计量,SPSS有7个统计函数,用于计算实变量的均值Mean(argl,arg2,…)、标准差Sd(argl,arg2,…)、变异系数CFVAR(argl,arg2,…)等。
(3)概率函数,SPSS中,给出了概率统计中几乎所有常见的随机变量的分布函数、密度函数、逆分布函数、随机数生成函数、非中心分布函数等。
SPSS提供了数量约80个概率函数,它们以函数名的前缀来区分,各种前缀列于表3.3中。
表3.3概率函数中的前缀
前
缀
CDF.rv_name(q,a…)
随机变量的累积分布函数
IDF.rv_name(p,a…)
连续型随机变量的逆分布函数
PDF.rv_name(p,a…)
随机变量的概率(或密度)函数(SPSSll.0新增)
RV.rv_name(a…)
随机数生成函数
NCDF.rv_name(q,a…)
非中心分布函数
NPDF.rv_name(q,a…)
非中心概率密度函数(SPSS ll.0新增)
表中rv_name代表随机变量名,CDF.rv_name(g,a,…)=P(ξ 前缀为“IDF”的称为逆分布函数,即分布函数的反函数。 离散型随机变量没有逆分布函数。 前缀为“PDF”的称为概率函数(离散型随机变量)或概率密度函数。 中心的贝塔分布、χ2分布、Studentt分布和F分布等。 各种概率函数中都依赖于数目不等的分布参数,不同分布的参数有不同的取值范围, 因此在调用分布函数时,必须给它们赋以恰当的数值。 而且同名的累积分布函数、概率密 度函数、逆分布函数的参数取值是完全一致的。 形如RV.rv_name(a,…),括号内的“a,…”为分布参数,其取值与相应的累积分布函数的参数一致,功能是生成服从相应概率分布的独立观察值,即随机数。 例如,对正态随机生成函数RV.NORMAL(a,b)来说,当指定了参数值以后可以产生一列按数据文件中观测量序号排列的服从正态分布的随机数。 3.2.5变量计算的基本操作 统计中,建立的数据文件中包含的数据可能来自统计调查的原始测量结果,统计分析要通过研究变量之间关系来揭示现象的内在数量规律。 例如,统计学中大量的相对指标的指标值是不可能通过实际测量得到的,而需要利用有联系的变量的比值计算出来,计算所得的数值就成为新变量的观测值。 SPSS提供了强大的Compute(计算)功能,新变量的计算可以利用Compute对话框方便地求得。 用Compute命令计算新变量步骤如下: (1)打开数据文件,执行Transform(转换)→Compute命令,打开ComputeVariable(计算变量)对话框。 (2)输入计算表达式。 使用计算器板(ColculatorPad)或键盘将计算表达式输入到NumericExpression(数值表达式)栏中,表达式中需要的SPSS函数可从Function(函数)栏中选择,通过双击鼠标左键或单击该栏上方的箭头按钮将选中者移入表达式栏。 这时,栏中函数的自变量和参数用“? ”提示,自变量必须选用当前工作文件中的变量,可以从源变量清单栏中选择,选中后用鼠标双击它,或单击栏边的箭头按钮输入表达式中。 计算器板上的数字、运算符按钮以及Delete按钮与计算机键盘上相应的按钮等效。 (3)定义新变量及其类型。 在Targe(目标)框中定义目标变量名,它可以是一个新变量名,也可以是已经定义的变量名,甚至可以是表达式中使用的自变量本身,用于接受表达式的计算值。 单击Type&Label(类型和标签)按钮,类型和标签对话框。 ●Label: 在框中给目标变量加注标签。 ●Useexpressionaslabel: 使用计算目标变量的表达式作为标签,这有利于统计分析时清晰地了解新变量的意义及运算关系。 在此对话框里,还可以对新变量的类型及宽度进行选择。 选择确定后,单击Continue按钮,返回主对话框。 3.2.6变量计算的应用举例 统计学中利用已知变量计算新变量的值是经常进行的工作,下面我们应用SPSS提供的变量计算方法解决几个统计学中的问题。 例3.2.1输出标准正态分布函数表。 统计计算和统计分析中,常需查标准正态分布表得到相关的概率值。 作为例子,应用SPSS变量计算功能输出一张标准正态分布函数值表。 计算步骤如下: (1)定义变量并建立新的数据文件。 打开SPSS数据窗口,定义变量x1,作为计算分布函数值的自变量。 (2)输入观测量数值。 对变量x1输入0.01,0.02,…,0.20观测值,步长为0.01。 (3)计算标准正态分布函数值。 执行Transform→Compute命令,打开ComputeVariable主对话框。 在Target框中输入目标变量fvl。 从函数列表框中选择标准分布函数CDFNORM(q),将其输入表达式框中。 该框显示的表达式是CDFNORM(? )。 从变量列表框中选择变量x1将它输入表达式,替代“? ”,显示在表达式框中的表达式为CDFNORM(x1)。 由于计算是对所有观测值执行的,所以不用打开条件表达式对话框。 单击OK或回车,变量fvl的数值便输出到当前的数据文件之中。 接下来,再一次打开计算变量对话框,在目标变量框里输入x2,在表达式框中输入x1+0.2,单击OK: 再打开计算变量对话框,在表达式框中输入CDFNORM(x2)并单击OK;依次重复上述过程,最后得到标准正态分布函数值表。 可用同样的做法,输出其他函数值表。 同学们一定会感到用这种方法,一次次地打开计算变量对话框,输入一个表达式,计算一个变量有些太麻烦。 可以打开Syntax窗口,在该窗口中编写如下简单程序: Computefvl=CdfNorm(x1). Computex2=x1+0.2. Computefv2=CdfNorm(x2). Computex3=x2+0.2. Computefv3=CdfNorm(x3). Computex4=x3+0.2. Computefv4=CdfNorm(x4). Computex5=x4+0.2. Computefv5=CdfNorm(x5). Computex6=x5+0.2. Computefv6=CdfNorm(x6). Computex7=x6+0.2. Computefv7=CdfNorm(x7). Computex8=x7+0.2. Computefv8=CdfNorm(x8). EXECUTE. 执行Run→All菜单命令,即可得到标准正态分布表。 3.3数据选取 3.3.1数据选取的基本方式 数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。 (1)选取全部数据(Allcases) (2)按指定条件选取(Ifconditionissatisfied) SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。 那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。 (3)随机抽样(Randomsampleofcases),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式: 第一,近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。 注: 由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。 第二,精确抽样(Exactly) 精确抽样要求用户给出两个参数。 第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。 SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。 4)选取某一区域内的样本(Basedontimeorcaserange),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。 这种抽样方法适用于时间序列数据。 (5)通过过滤变量选取样本(Usefiltervariable),即依据过滤变量的取值进行样本选取。 要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。 这种方法通常用于排除包含系统缺失值的个案。 说明: (1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。 (2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。 1表示本个案被选中,0表示未被选中。 该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。 3.3.2数据选取的基本操作 (1)选择菜单Data—Selectcases (2)根据分析需要选择数据选取方法 (3)Unselectedcasesare指定对未选中个案的处理方式 Filtered表示在未被选中的个案号码上打一个“/”标记; Deleted表示将未被选中的个案从数据编辑窗口中删除。 3.3.4数据选取的应用举例 3.4计数 3.4.1计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。 例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。 3.4.2计数区间 SPSS中的计数区间可以有以下几种描述形式: v单个变量值(Value) v系统缺失值(System-missing) v系统缺失值或用户缺失值(Systemoruser-missing) v给定最大值和最小值的区间(nthroughm) v小于等于某指定值的区间(Lowestthroughn) v大于等于某指定值的区间(nthroughhighest) 3.4.3计数的基本操作 统计工作中,常常需要计算一些变量在同一个观测量中满足要求的特定变量值出现的次数,称为特定变量值计数。 打开一个需要对变量列中满足某些条件的观测量计数的数据文件。 SPSS计数功能将产生一个新变量保存计数的结果。 变量值计数步骤如下: (1)执行Transform→Count(计数)命令。 打开CountOccurrencesOfValueswithinCases(对观测量内的特定值出现次数计数)对话框。 在对话框的Target框中输入目标变量名,用于保存计数结果。 在Targetlabel框中输入目标变量的标签。 (2)从源变量列表中选择准备计数的变量移至Numeric栏中。 这里需要注意,凡移送入该栏的变量必须具有相同的类型,当移入变量为数值型变量时,该栏标题改为“NumericVariables”,移入变量为字符型变量时,标题改为“StringVariables'’。 (3)如要按变量值来计数,鼠标选中Variables框中的变量,单击DefineValues(确定值)按钮: 打开CountValueswithinCases: ValuestoCount对话框。 对话框Value栏中有6个单选项,凡移送到Variables框中的每个变量,确定计数的变量值或变量取值范围,并按Add按钮移入ValuetoCount(按指定值计数)框里。 系统将按照设定凡与设定值或值范围相匹配的就计数一次,并给目标变量增加数值1。 6个单选项的意义分别为: ●Value: 按变量的指定值计数。 ●System-missing: 按系统缺失值计数。 ●Systemoruser-missing: 按系统或用户缺失值计数。 ●Range: 按变量的指定范围计数,在被激活的栏内输入从一到一的两个值,将对这两个值之间的数值计数。 ●Rangelowest: 从变量的最小值到指定值计数,在被激活的栏内输入一个值,将从最小值到这个指定值范围之间的数值计数。 ●Range_throughhighest: 从变量的指定值到最高值计数,在被激活的栏内输入一个值,将从这个值到最高值计数。 选择确定后,单击Add按钮移送到ValuetoCount框里,如需改变选择,可以单击按钮Change更改或单击按钮Remove移出。 最后,单击Continue按钮返回主对话框。 (4)如要按指定的条件来计数单击If…按钮,在随即打开的条件对话框中,设置计数条件。 单击Continue返回主对话框。 单击OK执行计数。 3.4.4计数的应用举例 3.5分类汇总 3.5.1分类汇总的目的 分类汇总是按照某分类变量进行分类汇总计算。 例如: 某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。 最简单的做法就是分类汇总,即将职工按学历进行分类,分别计算不同学历职工的平均工资,然后可对平均工资进行比较。 3.5.2分类汇总的基本操作 数据的分类汇总是指将观测量按若干分组变量(或分类变量)进行分组,对每一组的变量值求其具有概述性的函数值(统计量值)。 例如,将一个工厂的数据资料,按照该工厂的各个部门进行分组,并以每个部门为单位进行统计汇总。 通过分类汇总了解总体内部的结构及其概述特征,如各部分的均值、总和、百分比等,这项工作也是统计整理中的重要环节。 下面以数据文件“机械厂.sav”为例,说明数据分类汇总步骤如下: (1)建立或打开一个数据文件,执行Data→Aggregate(汇总)命令。 打开AggregateData对话框。 (2)对话框左边为源变量列表栏。 右边为BreakVariabules(分组变量)栏,它接纳从源变量列表框选择的分组变量,分组变量可以是数值型变量也可以是字符型变量。 AggregateVariables(待汇总的变量)栏对进入此栏的变量值按分组变量进行汇总。 从变量列表栏里分别选择分组变量和待汇总变量,移到相应的栏中。 当选定汇总变量(必须是数值型变量)移入AggregateVariabules框时,框中出现形如“###_1=MEAN(###)”的表达式。 其中“###”表示选定的来自源变量列表中的待汇总变量名,“ggg1”是分类汇总后生成的新文件中的相应变量名,它是用选定汇总变量名的前若干字母跟随下划线“—”及数字构成。 表达式表明变量“ggg_l”的值是汇总变量的分组中各观测量的平均数。 这是系统默认的输出结果。 如将文件“机械厂.sav”中的变量“wage”移到AggregateVariables栏时,显示“wage_l=MEAN(wage)”。 如果要改变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三章 SSS数据的预处理 第三 SSS 数据 预处理
![提示](https://static.bingdoc.com/images/bang_tan.gif)