描述样本数据 一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。这方面EXCEL就能一次性的给全了数据,但对于SPSS,就需要用多个工具了,感觉上表格方面不如EXCEL好用。 个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。对于SPSS提供的OLAP cubes(在线分析处理表),Case Summary(观察值摘要分析表),Descriptives (描述统计)不太常用,反喜欢用Frequencies(频率分析),Basic Table(基本报表),Crosstabs(列联表)这三个,另外再配合其它图来观察。这个可以根据个人喜好来选择。 一.使用频率分析(Frequencies)观察数值的分布。频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。 以自带文件Trends chapter 13.sav为例,选择Analyze->Descriptive Statistics->Frequencies,把hstarts选入Variables,取消在Display Frequency table前的勾,在Chart里面histogram,在Statistics选项中如图1 图1 分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准差(Std. deviation),方差(Variance),范围(range),最小值(Minimum),最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按Continue返回,再按OK,出现结果如图2 图2 表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间的变化差异还还小。峰度和偏度都接近0,则数据基本接近于正态分布。下面图3的频率分布图就更直观的观察到这样的情况 图3 二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。 同样以自带文件Trends chapter 13.sav为例,我们可以观察一下各年的数据总和的对比: 1.选择Graph->Bar->Simple,在“Data in chart are”一项选择Summary of groups of cases,然后按Define,出现图4, 图4 2.选择Bars Represent->Other statistic(e.g. mean),把hstarts一项选入Variable里面,把YEAR, Periodic一项选入Category Axis项中,并按Change Statistic键,出现图5: 图5 3.在Statistic选项中选Sum of values一项,按Continue返回,按OK即可出现图6: 图6 从图中可以非常直观的看出1965年-1975年间,每年的总体数量对比和各数值多少。 三.通过列联表来观察,数据的交错关系。 以软件自带的文件University of Florida graduate salaries.sav来说明 1、选择Tables->Basic Table,在弹出对话框中,选择Graduate到Summaries栏,College到Down ,Gender到Across栏,如图7 图7 2、选择Statistics按键,选取Count和layer%到Cell Statistics一栏,并按Continue键,如图8 图8
三、选择Layout按键,选择Summary Variable Labels->In separate labels(汇总的标签,如本例的Graduate,放在表外),Statistics Labels->Across top(数据的标签横放在顶部,如本例的Count和Layer%),并在Label groups with value labels only前选择打勾(表示只需要具体的标签名就可以,不需要汇总名,如本例Gender和College),如图9 图9 四、选择Total按键,在Totals over each group variable一项前选勾,则输出表会有增加汇总一栏,如图10 图10 提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉,多尝试几次就可以看出不同的区别。图11为输出的表格 图11 重要提示:如果结果变成变量的汇总(SUM),则先选择Data->Weight Cases,把Graduate的选项先选入Weight Cases by内,再选回Do not weight Cases,按OK即可。对于其他带有编号的一项都可以这样做。这一点不知为何,本人屡次试过总需要这样调整。参考图12 图12 几种常用的统计方法应用 一般来说,最最常用的统计分析有假设检验和回归分析,在SPSS中也有很好的对应工具来做这些分析,但对其基本思路和要求都必须了解,这样才能更灵活的发挥。下面抄录《EXCEL在市场调查中的应用》一书中关于这方面的内容: 1.假设检验 目的:是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 基本思想:小概率反证法思想。即P<0.01或P<0.05在一次试验中基本不会生发。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。 方法:t检验,u检验,秩和检验,卡方检验 应用条件:A、各组资料具有可比性 B、具正态分布 C、方差齐性(即先作F检验,如F0.1,具方差齐性) 2.方差分析 目的:又称为变异系数分析或F检验。用于推断两组或多组资料的总体平均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义(也可认为是检验多个总体均值是否有显著性差异注1,这样可能更简单一点)。 基本思想:用组内均方去除组间均方的商,即F值,与1比较,若F值接近1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。 应用条件:A、各组资料具有可比性 B、具正态分布 C、方差齐性 (即F检验) 提示,在应用SPSS中,只要死死的记住一个显著系数0.05就可以应用(如果是双尾系数需要除以2),一般的大于0.05接受原假设,小于0.05则拒绝。简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。 SPSS的方差检验中,需要注意下面问题: 方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。 2 Independent Samples检验中的Mann-Whitney U检验与K Independent Samples中的Kruskal-Walllis(克鲁斯卡尔—瓦里斯)H检验法思想类似,常用来作为非参数检验。 2 Related Samples非参数检验中,一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。前者用于研究的问题只有两个可能的结果:“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法的改进,除了可以检验是非外,还可以了解差异的大小。 K Related Samples非参数检验中,主要有Friedman秩和检验与Cochran Q检验二种选择,前者是对多个样本是否来自同一总体的检验,而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。 附录:SPSS假设检验方法使用对照表 图13 其中相关、配对或有交互作用可以理解为EXCEL的重复,独立或无交互作用可以理解为EXCEL中的无重复。图13表大部分参考《数据分析与SPSS应用》一书,特别说明 3.回归分析 目的:研究一个变量Y与其它若干变量X之间的一种数学工具。它是一组试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依存关系。 A.直线回归方程 Yc=a bX B.回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。 a. 方差分析:基本思想是将总变异分解为SS回归和SS乘余,然后利用F检验来判断方程是否成立。 b. t检验:基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。 下面摘录《数据分析与SPSS应用》一书关于相关回归和时间序列分析一些概念解释。 数据变量间主要存在二类关系: 一类是函数关系,一类是相关关系。 前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情况下,按某种函数关系唯一确定;后者是变量间虽然具有的联系,并非确定关系,如价格与销量量,价格高了,销售量可能会上去,但无法确定销售量是多少。 通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在一条曲线附近,则为非线性相关。 如果一个变量因另一个变量的增加而增加,减少而减少,则二个变量间存在正相关关系,反之则为负相关关系。极端的相关是完全相关和零相关。如某地区购买自行车多少与购买大蒜多少无关,是为零相关。 按我的理解,相关分析就是推断变量与变量之间关系的密切程度,回归就是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋势和变量。而时间序列则是以时间的作为观察的序列,来推断变量间的关系的一种模型。 以自带文件Trends chapter 13.sav为例,说明一下如何应用这三种分析工具。 1.相关 打开Trends chapter 13.sav文件,可以看到,这个文件的数据是以时间来排序的,在每个值前增加一行序列号变量,如图14 图14 一个时间序列的影响因素有四种变动:A长期趋势(Secular Trend),B季节变动(Seasonal Variation),C循环变动(Cyclical Variation),D不规则变动(Irregular Variation)。 我们可以观察一下这些数据是否存在某种关系,打开Graphs->Sequence,如图15 图15 把hstarts选入Variables项,把No.选入Time Axis Lables,然后按OK,出现图16: 图16 从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化。 因此可以察看,因变量与时间的关系如何。选择Data->Define Dates,出现图17 图17 在Year一栏填入1965,Month一栏填入1,表示数据从1965年1月开始计算。 选择Analyze->Correlate->Bivariate,出现图18 图18 把hstarts,Year和Month都选入Varibales选项,Correlation Coefficients选择Pearson和Spearman(其实只需要选Spearman就可以,这里只是试一下,作为比较)。 注:相关检验中有Pearson(皮尔森)相关系数和Spearman(斯皮尔曼)等级相关,前者也称皮尔森相关系数,是对两个定距变量关系的刻画;后者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-order Correlations(零阶偏听偏相关系数)是按Pearson简单相关系数公式计算得到的相关系数。在皮尔森系数r是对两个定距变量关系的刻画: 若-1≤r≤1,|r|越大,表明两个变量之间的相关程度越强。 若0<R≤1,表明两个变量之间存在正相关。若R=1,则表明变量之间存在着完全正相关的关系。></R≤1,表明两个变量之间存在正相关。若R=1,则表明变量之间存在着完全正相关的关系。> 若-1≤r<0,表明两个变量之间存在负相关。若r=-1,则变量间的关系为完全负相关。 若r=0,表示两个变量之间无线性相关,即零相关。 按Option按键,如图19 图19 在Statistics选择Means and standard deviations Cross-product deviations and covariances,注意,这二个选择是Pearson才有的,如果开始只选择Spearman,则此二项不能选。返回后,按OK如图20: 图20 从图20看到Year的Pearson系数为0.219,Sig值为0.012,小于P值0.05,与Hstarts显著相关,Month的Pearson系数为0.058,Sig值为0.506,大于P值0.05,则与Hstarts不显著相关。从下图21的Spearman也同样得到相同的结论。 图21 2.回归 试建立回归模型,看能否形成各变量间的关系式。选择Analyze->Regression->Curve Estimation,出现图22 图22 把hatarts选入Dependents选项,Independent选择Time,Models选择(Linear)线性回归,(Quadratic)二次曲线回归,(Cubic)三次曲线回归,(Exponential)指数回归,选择Include constant in equation表示方程式有常数项,Plot models则表示用图表示,然后按OK,出现图23 图23 线性方程:Y=70.43 0.135X 二次曲线方程:Y=64.171 0.415X-0.02X2 三次曲线方程:Y=87.68-1.667X 0.037X2( 0X3) 指数曲线方程:Y=68.229xe0.002 从Sig值判断,都小于0.05,都接受回归成立,这样,只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。 注意,如果方程成立的话,想要增加预测,则可以在Save选项中选择Predicted Values一项,如果还想预测未来的数值,则可以在原表上增加若干行(如1行),然后选择Predict Cases下面Predict through,在Year填入1976,在Month填入1,这样就表示预测值到1976年的一月。如图24所示。 图24 注意,在Independent选择Time和把ID选入结果一样,则因为ID是以时间为序来排,所以结果一样。 3.时间序列 因为R的似合度分别为0.05,0.064,0.199和0.039,都比较低,方程的效果不太好,如果要预测数值还是选择时间序列比较合适,因为从刚才Sequence的图也可以观察到,数据是以后的时间来波动的变化关系。 选择Analyze->Time Series->Exponential Smoothing,出现图25 图25 把hstarts选入Variables选项,并在Model选择Winters(注意,三种不同的模型的选择:简单指数平滑适用于不包含长期趋势和季节成分的数据;Holt方法适合于包含长期趋势但不包含季节成分的数据;Winters方法适合于包含季节成分(以及长期趋势)的数据。EXCEL中只有简单的指数回归,与这里的绝不相同,从这里也可以看到专业分析软件的优势更具体更仔细),又按Save键,如图26 图26 Predict Case选项中选择Predict through,并在Year栏填入1976,month填入6,这样就可以得到1976年1-6月份的预测值(注意,此处与上面的回归不同,不需要增加6个ID,不然结果会显示有缺失值)。返回,按Parameters键,如图27 图27 分别把Alpha(截距项的平滑系数),Gamma(趋势项的平滑系数)和Delta(季节指数的平滑系数),设为从0到1之间以步长0.05搜索最优的参数值,其它选项采用默认值。返回按OK,出现结果如图28:
图28 从图可看到平滑指数分别是Alpha=0.75,Gamma=0,Delta=0,而更重要的是,可以直接得到预测值,如图29: 图29 除了Fit一项的预测外,可以得到1976年1-6月的预测结果。同时,可以通过FIT 1的预测情况与上面三次曲线回归方程比较,采用平均绝对误差、均方根误差和平均绝对百分误差的结果选择更佳的答案。 与EXCEL表现的比较和补充 这一点是针对像我这样开始只懂得用EXCEL的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。 一、图型的表现力是SPSS的主要优点之一 应该说,EXCEL的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。因为大多的书里面都谈到,这里从略。 二、通过SPSS检验方差齐性和数据分布 假设检验中,采用的t检验和方差检验都需要满足二个要求,即 1.样本方差齐性 2.样本总体呈正态分布 在EXCEL中,提供了F检验来检验方差齐性问题。也就是可以先通过F检验确定方差齐性与否来选择下一步用哪个T检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布(实际工作中,只要分布单峰且近似对称分布,也可应用注2),但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决。 A、用SPSS检验方差齐性 同样以University of Florida graduate salaries.sav文件作为例子来检验性别数据是否方差齐性 a.选择Analyze->Descriptive Statistics->Explore,再选择Dependent List->Graduate,Factor List->Gender,Display->Both,如图30 图30 b.点击Plot按键,在对话框里选择Boxplots->None,Spread vs.Level with Levene Test->Untransformed,在Descriptive选择中取消Stem-and-leaf一项,如图31 图31 然后,按OK键,结果如图32显示: 图32 图32中可以看出,显著值sig都大于0.05,因此不能拒绝H0方差齐性的假设,即数据的方差齐性。 提示,在SPSS中,应用t检验是不需要单独检验方差齐性问题。结果中就有Levene检验的结果,从中就可以选择方差分别作为相等与不等假设时的结果,如图33 图33 而在方差检验中, Option的按键有一个Homogeneity of Variance test的按键,选择后,输出就有方差齐性的检验结果。 B、用SPSS检验样本总体的分布。 以软件自带文件World 95 for Missing Values.sav作为例子检验出生率的分布是否服从正态 a. 选择Data->Weight Cases,并把Birth rate per 1000 people选入Weight cases by的选项,如图34 图34 b.选择Analyze->Nonparametric Tests-> 1 sample K-S,把Birth rate per 1000 people选入test Variable List选项,Test distribution选Normal,如图35 图35 c.按OK可以看到结果如图20,两侧检验率为0,则表示拒绝接受Ho(数据整体服从正态分布)的假设,数据分布不服从正态分布。 图36 提示,除了正态(Normal)外,还可以检验其它分布,只要在图中选项中选择Uniform(均匀分布),Poisson(泊松分布),Exponential(指数分布)即可。当然,如果样本过大,可能SPSS也会拒绝运算。 三、感觉在数据和表格处理上,EXCEL要强一点。像图11中,想把男性和女性的个数和个数百分比各自合为一列,结果不能做到。又如在运算方面,EXCEL就能直接在单元格上操作,而SPSS则要下拉菜单,不但麻烦,而且观察和调整的效果也不如EXCEL理想。 四、作为专业的统计软件,SPSS感觉比EXCEL更丰富,也更准确,EXCEL也有自身方便性的优点。可以根据个人喜欢来选择。最后用毛炳寰先生的劝导来结束这篇东西: 1.用自己熟悉,有把握的方法来做分析 2.仔细处理初级数据,所谓“Garbage in,garbage out”。 3.引用的时候不需要全部都罗列出来,同时也不用刻意的去搞清楚每一项表示的内容。(对这最后一个,本人有点保留,但也确实在这个探索过程令我沮丧,觉得还是忠言) |
|