配色: 字号:
现代心理与教育统计学复习资料覃瑞
2019-10-27 | 阅:  转:  |  分享 
  
现代心理与教育统计学复习资料赵晨鹰老师覃瑞整理(21267529)徐建平和张厚粲主编第三版

第一章绪论

课程简介:先行课程为数学、普通心理学,后续课程为实验心理学、心理测量学、心理学研究方法、(研究型)毕业论文等。

心理统计可分为三种类别(最常见的分类方法P8):

第一部分是“描述统计”,&离中&相关量数的计算等。第二部分是“推论统计”,”,“实验设计”)4χ2检验5非参数检验

线性回归(进而建立“数学模型”)多变量统计分析简介实验设计:抽样原理及方法



心理统计学(PsychologicalStatistics)是研究在心理实验或调查中如何收集、整理、分析数字资料,以及如何根据这些资料所传递的信息作出科学推论的应用统计学分支。

随机性数据资料~随机现象P3(vs.确定现象)①试验之前已知存在多种可能结果,但不能预料哪种结果会出现;②在相同条件下可以重复该试验。

理论统计学vs.应用统计学

心理科学研究数据的特点P21、分散性:数据结果均以一个个分散的数字形式呈现。

2、变异性/随机性:观测数据总在一定范围内随机波动变化。3、规律性:通过重复观测可发现其变化具有一定的特征与规律。心理科学研究的目标就是在分析部分数据的基础上来推测其相应总体的特征。



一、描述统计(descriptivestatistics)P8

描述统计主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字(即统计量数),使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。

据分组、图表制作。②统计量/特征值P21的计算。③相互关系的描述及相关系数的计算。等等描述统计只限于对试验样本所得观测数据的统计分析,不考察其总体的特性。

二、推论统计(inferentialstatistics)P9

推论统计是以描述统计为基础,从而解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特性。

数估计。②假设检验中的参数检验(Z检验、t检验、F检验等)。③计数资料的检验(χ2检验)。等等

三、实验设计(抽样理论、被试分配原则等)

一、变量(variable)、观测值、随机变量P18

变量:一个可以取不同数值的物体属性/事件。事前无法预期结果的变量——随机变量。

事后测定的某一结果——观测值/原始取值。[补充]概念理解[涉及“实验”]自变量(及其各水平)&因变量(及相应的反应指标)[涉及“调查”,粗略对应于]属性变量&反应变量



二、数据类型[重点,结合实例理解]P16

1、按数据反映的测量水平(低→高)区分为①称名/类别、②顺序/等级、③等距、④比率/等比数据

划分标准:①能否排序、②有无相等单位-能否加减、③有无绝对零点-能否乘除。

①称名数据/变量——只区分属性或类别上的不同,只可计数、不能排序。如性别、学科、职业等。

②顺序数据/变量——可排序,但无相等单位、不能加减。如等级评定、受教育程度、职称等。

③等距数据/变量——有相等单位,但无绝对零点、能加减不能乘除。如摄氏温度、常用测验得分等。

④比率数据/变量——有相等单位,有绝对零点、能加减乘除。如反应时、身高、体重等。



二、数据类型补充说明:①高层次的数据包含了低层次数据的全部性质。因此,高层次的数据可以降级当作低层次的数据来处理(如“统计分组”P25),但不提倡。

②数据类型直接决定统计方法的选用(如“是否为连续数据将使用完全不同的方法”、“相关系数的选用”等)。一般情况下,心理科学研究只要求观测数据达到等距层次,因为等距数据已完全符合绝大多数高级的统计方法。



二、数据类型2、按数据的观测方法和来源,区分为计数数据/计数资料和测量数据/计量资料。

提醒:①计数资料不是原始取值/观测值,而是在观测值的基础上计算个数所得的数据。应该说,任何原始数据都可换算为计数资料。但通常只会将称名和顺序数据换算成计数资料,因此,常默认地将此两类数据等同于计数资料。

提醒:不要看到人数/个数的就以为计数结果,它可能仍是观测值!②同样,等距和比率数据更多是进行加减等代数运算,这两类被默认为测量资料。



二、数据类型

3、按数据是否具有连续性,区分为离散数据(对应的变量叫“离散变量”)和连续数据(连续变量)。

注意:①这是针对原始取值/观测值的划分,其标准就是理论上任意两个数据点之间能否细分出无限多个大小不同的数值。②称名和顺序数据属于离散数据,等距和比率数据属于连续数据。



三、次数、比率、频率与概率P19

次数/频次/频数:某一事件在某一类别中出现的数目。比率:同类别中不同事件出现数目之比。频率/相对次数:某一事件数目与此类别所有事件数目之比。这三个概念均由实际计数资料/样本计算所得。概率:某一事件在无限观测中所能预料的相对出现次数。(理论值/期望值)



四、总体、样本、个体P19

总体:所欲研究的具有某种特性的一类对象的全部(样本空间)。(有限总体/无限总体)



个体:构成总体的每个基本单元。样本(sample):从总体中按一定规则抽取的作为观测对象的一部分个体。样本中所包含的个体数量即为样本容量/大小(大样本vs.小样本)

对于一个(相对)无限总体而言,可以抽取出无限多个不同的样本。



五、参数和统计量P20

(总体)参数:描述总体特性的统计指标。(样本)统计量/特征值:描述样本特性的统计指标。

知识点链接:

参数检验vs.非参数检验P343,其区别就是“是否需要考虑总体分布/参数的情况”。

“参数是一个常数;统计量是一个变量。”

提醒:两者在符号上的区别——通常,参数~希腊字母,统计量~英文字母。一定要注意各种统计指标的符号规范化



不同情形,对应于不同统计方法的选用

一、研究目的不同差异检验:如t检验、方差分析、卡方检验等。关联分析:如相关分析、回归分析等。

二、被试分配不同无一一对应关系的各组数据——独立样本。

有一一对应关系的各组数据——相关样本(同批被试样本或配对样本)。



三、数据类型不同连续数据——t检验、方差分析、积差相关等参数分析。

离散数据——卡方检验、等级相关等非参数分析。四、样本的多少

单样本、双样本、多样本。(均为连续数据、进行均值比较时,前两者用t检验、后者用方差分析)

五、自变量的多少单因素、多因素。(均为连续数据时,可用方差分析、及回归分析等)

中英文对照:描述统计descriptivestatistics推论统计inferentialstatistics

变量variable观测值observation称名数据nominaldata顺序数据ordinaldata等距数据intervaldata比率数据ratiodata计数数据countdata测量数据measurementdata离散数据discretedata

连续数据continuousdata频次/频数frequency概率probability总体population样本sample参数检验parametrictest非参数检验non-parametrictest

第二章统计图表

一、数据的统计分组统计分组是根据被研究对象的特征,将所得数据划分到时各个级别中去。

应注意的问题P26①分组要以被研究对象的本质特性为基础(即要有理论或实践支持)。

②分类标志的确立必须坚持穷尽性和互斥性原则。穷尽性:必须使全部数据都能归到某类中。互斥性:必须每个数据只能唯一被归入某类中。分组标准按形式可分为性质类别(常用于离散数据)与数量类别(常用于连续数据)。



二、统计表

既用于原始数据的整理(如被试构成),也用于检验结果的报告。



注意事项:①常用三线表(顶线、底线、栏目线);②标题置于表的上方;③表号通常为阿拉伯数字123;④尽量简洁明了。



次数分布主要表示数据在各个组/类中的散布情况,即将原始资料转换为计数资料。

次数分布表/图适用于各类数据的计数资料。

一、简单次数分布表(如,表2-1)

直接对每个观测值进行计数。适用于许多心理测验或调查(单一题项)的结果(通常为离散数据)。

二、分组次数分布表(如,表2-2、表2-3的“f”列)

先划分若干分组区间,再对原数据进行归组并计数。适用于许多心理测验(总分)或实验的结果(通常为连续数据)。



二、分组次数分布表

编制步骤:P32

①求全距(最大值与最小值之差)

②决定组距与组数

③列出分组区间(精确组限、组中值):注意核实是否满足穷尽和互斥原则。

④登记并计算次数

⑤编制次数分布表

优缺点:这样做虽然使无序的数据变得有序、能了解分布情况;但有部分信息丢失了,所得数据与原数据有一定的出入(归组效应)。 因此,进一步的统计最好仍用原始数据。

三、相对次数分布表(如,表2-3的“P”列与“%”列)

四、累加次数分布表(如,P36表2-4)

五、双列次数分布表:适用于2个变量(可以为离散或连续)的计数资料。(如,P38表2-6)

六、不等距次数分布表(用于连续数据的计数资料,根据实际情况来确定)

第三节次数分布图

本节内容是基于连续数据的次数分布表。

一、直方图(如,图2-3、图2-4,略有误)

组距确定矩形宽度,每组频数确定各矩形高度,各矩形间不留空隙,矩形面积与其频数分布大小等价。

二、次数多边形图/折线图(如,图2-5)P40

在直方图基础上,通常以各矩形高端线段的中点连线而成(两端虚线延伸)。

[补充]:单峰分布/多峰分布

三、累加次数分布图P41

1、累加直方图(如,图2-7)

2、累加折线图→累加曲线图2-8):分正偏态、正态、负偏态三种(如,图2-9)

补充:折线图→曲线图:P66图3-3)

第四节其他类型的统计图表

一、其他常用的统计表类型P43

简单表、分组表、复合表主要适用于测量资料及其统计结果呈现(通常为三线表)。

二、其他常用的统计图类别P45

1、条形图/直条图/棒图:适用于离散数据的计数资料(可对应于“简单次数分布表”)及其他

可按实际需要选择其中的某种类型。(如,图2-10)

以条形的长短表示各事物间数量的大小。

条形图与直方图的区别:①适用资料不同;②横轴标尺不同;③图形形状不同。

2、圆形图/饼图:适用于离散数据的计数资料,通常以百分数表示。(如,图2-11)

3、线形图:最常用的图示方法,用以描述两个或两个以上变量(如,自变量和因变量)之间的函数关系,通常适用于连续数据(也可用于顺序数据)。(如,遗忘曲线;有误:如,P41图2-6)

[P47自习]线形图的绘制要点(与折线图的区分)

4、散点图:适用于连续数据,用点的分布形态来表示两种现象(如,两个因变量的成对数据)之间的相关程度。(如,图2-12)

第三章集中量数

第一节算术平均数第二节中数与众数第三节其他集中量数

对数据分布情况的量化描述主要有两方面的指标:①数据的中心位置;②数据的分散/变异程度。

集中趋势——数据向某方向的集中——集中量数(数轴上的一点)

离中趋势——数据彼此的分散程度——离中/差异量数(数轴上的一段距离)

两者一起描述一组数据的全貌。(针对连续数据)最常用的即为平均数和标准差。

第一节算术平均数P54

一般简称为平均数(average)或均值(mean)。符号为M,区分总体/样本平均数。

适用资料:等距数据及以上/连续数据。

一、平均数的计算[自习,包括“使用次数分布表计算平均数的方法”P56]

二、平均数的特点:①离均差总和为0。②每个数加上C,则所得平均数为原平均数加上C。③每个数乘以C,则所得平均数为原平均数乘以C。

三、平均数的意义:多数情况下它是真值的最好估计值。

四、平均数的优缺点1、优点:①反应灵敏。②计算严密。③计算简单。④简明易解。⑤适合于进一步代数演算。⑥较少受抽样变动的影响。

2、缺点:①易受极值的影响。 “修剪平均数”据不够确切,则无法计算该样本平均数。 “缺失值(missingvalues)的处理”

五、计算和应用平均数的原则1、同质性原则:同质的数据才有计算平均数的意义。2、平均数与标准差、个体数值相结合的原则:描述数据分布特征不能仅依赖于平均数,还需考察标准差以及个体数值等。

第二节中数和众数

一、中数P61又称中位数/中点数,符号为Md(Median),是指一组数据中位于较大一半与较小一半中间位置的那个数。适用资料:顺序数据及以上。1、一般计算方法(区分数据个数为奇数/偶数)[补充]复杂情况:①数列中间出现重复数值;②分组数据。

2、优缺点与应用优点:计算严密;计算简单;简明易解。缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。

二、众数P64又称范数/密集数/通常数,符号Mo(Mode),是指一组数据中出现次数最多那个数。适用资料:称名数据及以上。1、一般计算方法:直接观察[自习]公式计算

2、优缺点与应用

优点:简明易解。

缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。

三种集中量数的关系:正态分布中三者相等,正偏态中M>Md>Mo,负偏态中M
第三节其他集中量数

一、加权平均数:适用于等距数据;

二、几何/对数平均数:适用于比率数据,用于描述增长比率等方面的问题。

[例3-8计算不当]

三、调和/倒数平均数:适用于比率数据,用于描述平均速率等方面的问题。

04第四章差异量数第一节全距和百分位差第二节平均差、方差与标准差第三节标准差的应用:差异系数和 标准分数第四节差异量数的选用

第一节全距和百分位差一、全距P80又称两极差,用最大值与最小值之差来表示离中趋势,符号R(range),公式计算所得数值越大,表明数据越离散/分散[下同]适用于等距数据及以上(将就也会用于顺序数据);最简明、最低效,常用于预备性检查。

二、百分位差P81用百分位数之间的差值来表示离中趋势,常用的有P90-P10、P93-P7。[补充]原始排名的百分等级计算(算的是,如果你在N人里排名是R,那么类推到100人里你排名是多少)PR为百分等级,R为排名序号,N为总数据个数。P174

四分位差(及四分位数)P84,可视为百分位差的一种,符号Q(quartiledeviation),公式Q=(P75-P25)/2(即第三个四分位数与第一个四分位数之差的一半)

适用于等距数据及以上(将就也会用于顺序数据);效果强于全距,但反应不够灵敏,不适合进一步代数演算,故仍为低效,应用不多。

第二节平均差、方差与标准差适用于等距数据及以上。

一、动差体系,中心动差P85

一级动差:通常取离均差的绝对值求和——应用于平均差;

二级动差:取离均差的平方求和——应用于方差(其平方根即为标准差);

三级动差:取离均差的三次方求和——应用于偏态指标;

四级动差:取离均差的四次方求和——应用于峰态指标。



二、平均差P86

平均差:离均差绝对值的均值,符号A.D.,公式

描述离中趋势/离散程度最为直观,计算简单严密易懂、反应灵敏、受抽样变动影响小;但受限于取绝对值不利于进一步代数运算,因此仍属低效,应用不多。

三、方差与标准差P87

方差:离均差平方的均值,符号S2,公式

标准差:符号S、s或SD,公式

例题计算[自习例4-3、例4-4,结合公式4-9、4-10]

提醒:该计算结果为“样本标准差Sn”,而SPSS计算结果为“样本所估计的总体标准差Sn-1”。

性质P93

①方差的可加性和可分解性

[补充]总方差的合成P91(注意:合成前提是各样本进行的是同一特质的同种观测,即同质性原则)

②每个数加上C,则所得标准差等于原标准差。

③每个数乘以C,则所得标准差为原标准差乘以C。

意义/优势所在:①反应灵敏。②计算严密。③(还算)计算简单。④(还算)简明易懂。⑤适合于进一步代数演算。⑥较少受抽样变动的影响。

缺点呢?

第三节标准差的应用

一、差异系数(coefficientofvariation)P94绝对差异量数vs.相对差异量数(不带测量单位)

用以比较多组数据之间离散程度的大小。计算公式:

常用于:①同一团体不同观测值离散程度的比较(如,身高vs.体重);②(各均值相差较大时)不同团体同种观测值离散程度的比较(如,成人体重vs.小孩体重)。

注意:①适用资料至少是等距,理论要求为比率数据;②尚不能进行统计推论。

二、标准分数(standardscore,又称Z分数)P95是以标准差为单位来表示一个原始分数在团体中所处的相对位置量数。可用以比较多个数在其所在数组分布中的相对位置的高低(Z分数越大,表明该数据在其分布中取值越大、相对位置越靠前)。1、计算公式:

2Z分数无实际测量单位,是以均值为参照点,以标准差为单位的一个相对量,为等距数据。②一组原始数据转换得到的Z分数的平均数为0,标准差为1。若原始数据呈正态分布(normaldistributions),则转换所得的Z分数服从正态分布N(0,1)。

3、标准分数的优缺点优点:可比性;可加性;明确性;稳定性。缺点:计算相对繁琐;常为负数或带有小数,难理解。

4、标准分数的应用(适用前提:正态变量)P97⑴(利用Z分数具有可比性)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。(如,之前的例题)⑵(再利用Z分数具有可加性)计算不同质的观测值的总和,以表示在团体中的相对位置。 [自习例4-9、4-10]⑶表示标准测验分数。(如,“离差智商”,自习)⑷极端数据的取舍:M±2S或M±3S标准(即“正负两个或三个标准差原则”)。



一、优良差异量数具备的标准

六条标准,可参阅“标准差的优点”

二、各种差异量数优缺点比较

三、(在样本容量大或正态分布中)各种差异量数之间的关系

四、如何选用差异量数

考虑五方面因素,同时结合适宜的集中量数来描述一组数据的全貌。

第五章相关关系

第一节相关、相关系数与散点图第二节积差相关第三节等级相关

第四节质与量相关第五节品质相关

第一节相关、相关系数与散点图

相关分析主要处理两个变量之间的相互关系,属于描述统计。P107

一、什么是相关

1、事物之间的联系大致分为两类:

(1)因果关系

(2)相关关系:变量之间存在相互联系,但不能直接做因果判断。(通常难以区分出共变关系/虚假相关)

专题讨论:相关分析完全不能得出因果关系吗?P107、148回答:从理论和大多数实际操作来讲的确如此。1)单凭相关无法判断何为因、何为果。2)很有可能存在其他变量共同作用于这两个变量。但排除了这两种情况的显著高相关可间接得出因果关系。

2、相关的类别:首先分为直线相关和曲线相关(根据散点图估计)

针对直线相关,从变化情况可划分为:正相关(及完全正相关)、负相关(及完全负相关)、零相关(即两变量之间无相关)。(各种相关均可先根据散点图做初步估计)[结合P110的图5-2、图5-3]

二、相关系数(coefficientofcorrelation)

变量间相关程度的数字表现形式,即表示相关强度的指标(相关量数)。符号:样本r,总体ρ

取值范围:-1≤r≤1(四点说明P108)提醒:①它只是顺序数据;②正负只表示方向,取值大小表示相关的强弱程度(值越大,相关越高)。

三、散点图(scatterplot)以点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。P110-111,图5-2、5-3、5-4

[补充]:多个变量间的相关常用“相关矩阵”表示。





第二节皮尔逊积差相关

一、概念与适用资料

又称“积矩”相关。

适用资料[诸多条件缺一不可!]①(大样本的)成对数据(表现为两组数据存在一一对应关系),每对数据相互独立。②正态双变量(即两总体服从正态分布或渐近正态的单峰分布)。 [样本咋样就不管了]③两数据类型均为连续数据(即等距/比率数据)。④两变量呈直线相关(先用散点图预测)。

二、基本计算公式P113

1、运用标准差与离均差



2、运用标准分数(Z分数)

“协方差”:表示两个变量的一致性。

Z分数加以计算的公式:

3、直接用原始数据













三、相关系数的合并P121

常用于需将取自同一总体的几个样本的相关系数进行合成。

Z-r转换法的具体步骤(结合P470附表8):

①将各样本的r转换成Z;

②计算平均Z分数,公式为

③再将平均Z分数转换成r。

第三节等级相关

属于非参数相关分析

一、斯皮尔曼等级相关(Spearman’srankcorrelation)

符号:rR或rS

1、适用资料

①两列变量,成对数据,各对数据相互独立;②均为顺序数据(及以上);③直线相关。

(较之积差相关)优点:适用范围大;缺点:精确度低。

因此,凡符合计算积差相关的资料,不要用等级相关计算。

一、斯皮尔曼等级相关

2、计算公式

自习:P124例5-3。 (此例也可以用积差相关来分析。但由于样本容量不足、总体分布情况未知,所以宜改用等级相关。)

提醒:积差相关的“韧性”很强,即使部分软条件不满足(如,样本容量略显不足、总体分布情况未知/心理学涉及的等距数据多数为正态分布)也仍适用。

2、计算公式:(有相同等级时的)修正公式[不要求]

课外自习:P125-128例5-4、5-5。

二、肯德尔等级相关

1、肯德尔W系数(和谐系数,Kendall’sconcordancecoefficient)P128

1)适用资料:多列等级变量。

采用等级评定法或排序评定法所获得的资料。(评分者信度)

2)计算公式

K-评定者数目;N-被评对象数目;Ri-某被评对象的等级总和。

(有相同等级时的)修正公式





提醒:W系数不是标准的相关系数,其取值范围为0≤W≤1,W=1表示完全一致,W=0表示完全不一致。对相关的方向尚需分析实际资料。P129

2、肯德尔U系数(一致性系数,Kendall’sconsistencycoefficient)P132

1)适用资料:多列等级变量。

采用对偶比较法所获得的资料。

2)计算公式

Rij为某成对比较的择优分数(参见表5-13);K-评定者数目;N-被评对象数目。

提醒:①针对同一适用资料,W系数优于U系数。 ②U系数不是标准的相关系数。

第四节质与量相关P134

两个变量一个为连续数据、一个为称名数据。

一、点二列相关

真正的vs.人为的二分变量;后者可降级为前者。

1、适用资料:连续变量与真正的二分变量。常用以评价是非题之类测验的内部一致性等。

2、计算公式:

取值范围及含义与r相同。

提示:求连续变量与顺序变量之间相关系数的降级方法通常为:①连续↘顺序求斯皮尔曼等级相关;②顺序↘称名求质量相关。(前者居多)

二列相关

1、适用资料:两组均属正态分布,连续变量与人为的二分变量(即连续↘称名)。常用以评价问答题之类测验的内部一致性等。

2、计算公式:

取值范围及含义与r相同。很少用到。

三、多列相关

适用资料:两列正态变量,连续+人为地分成多组。较少用到。

提醒:本节情况会常用“均值比较”来进行推论统计。

P141

两个变量均为称名数据,整理为计数资料后表示为R×C表,常用于项目分析。

一、四分相关

1、适用资料:两个都是人为的二分变量(本来是连续数据),其R×C表为四格表。

2、计算公式[自习]

二、Φ相关(系数)

1、适用资料:两个都是真正的二分变量,其R×C表为四格表。[注:P143表中括号内为期望值feP295以后学]

2、计算公式:

三、列联表相关[自习] 本节情况常用“χ2检验”分析

[自习]

一、如何选择合适的相关系数两变量数据是否成对;两变量是否呈直线相关;两变量的数据类型。P147表5-17数据个数(是否为大样本);总体是否呈正态分布。

二、相关系数的解释它不是等距的测量值;其值的大小与相关程度描述;P150图5-6(以r为例);相关关系不能得出因果关系,但有预测作用。虚假相关的存在使相关分析变得没有实际价值。对此,可采用偏相关(partialcorrelation纯相关或净相关)分析。

三、相关系数的实际应用(如,信效度检验等)

补充:如何谨慎看待低相关?

例1:以大一生为被试,考察年龄与性别角色气质量表得分之间的关系,结果呈低相关,表明年龄不能预测性别角色气质量表的得分。

例2:考察学习压力与学业成绩之间的关系,结果呈低相关,表明两者不存在相关关系。

研究所得的低相关可能并不意味着两个变量之间的真实相关程度。其中,常见的两种出错情况:

1)全距限制导致低相关。

2)前提假设(直线相关)不满足导致低相关。

第六章概率分布第一节概率简介第二节正态分布第三节二项分布第四节样本分布

第一节概率简介P155

概率论是推断统计的数学基础。

一、什么是概率(统计定义:从频率的角度来界定)

1、后验概率(又称统计概率)

频率:在对随机事件进行n次观测中,事件A出现m次,则m/n称为n次试验中A出现的频率。

(后验)概率:当n→∞时,m/n将稳定于某个常数P上,P即为概率,记作。

两个前提条件:①每次试验中某一事件发生的可能性不变;②试验能大量重复,且每次试验相互独立。

特点:试验之前无法预计,只有借助试验结果来估计。

2、先验概率(又称古典概率)

(先验)概率:如果基本事件的总数为n,事件A包括m个基本事件,则事件A出现的概率记作P(A)=m/n。

特点:试验之前就能决定某一事件出现的概率。

两个前提条件:①试验的基本事件是有限个数的;②每个基本事件出现的可能性相等。

二、概率的基本性质和基本定理

1、基本性质(又称基本公理)

①概率必定介于0~1之间。②必然事件的概率为1;不可能事件的概率为0。

2、基本定理

①加法定理:设事件A、B互不相容,则P(A+B)=P(A)+P(B)。

②乘法定理:设事件A、B相互独立,则P(AB)=P(A)P(B)。

实例:两名警察同时向某歹徒各开一枪,已知两警察命中率为80%和60%,问:歹徒未被击中、命中一枪、两枪的概率分别是多少?

三、概率分布类型P160

1、离散分布(如,二项分布)与连续分布(如,正态分布)前者可考察某取值的概率大小;后者则讨论对某一取值区间来说的概率大小。

2、经验分布与理论分布前者指样本数据/观测值的次数分布;后者指对应的总体次数分布(强调在推断统计中)。

3、基本随机变量分布与抽样/样本分布。前者指观测值/原始数据的次数分布;后者指样本统计量/特征值的次数分布(从同一总体中多次抽样,得到如样本平均数、样本标准差等统计量的分布)。

第二节正态分布P161

又称常态分布,也称高斯分布。

该曲线函数P161公式6-1,记作:X~N(μ,σ2)。

标准正态分布为Z~N(0,1)。

一、正态分布的性质1、分布形式是对称的。2、曲线从中央最高点向两侧下降,先内弯后外弯,其拐点位于正负一个标准差处;曲线两端无限接近基线但终不相交。3、曲线下的面积为1,变量X在X1~X2间变化的概率为X=X1与X=X2两轴间曲线下的面积。4、为一族分布,其形态由均值、标准差的大小决定。

二、正态分布表的使用P164及P449附表1

Z、Y、P查表三栏的含义(注意:经常会P实际≠P查表)

记住:±1S→.68;±1.96S→.95;±2.58S→.99。P165

1、Z→P(即,已知Z,求P)例:P(-1<Z≤1.96)实例一:1000名学生参加英语期末考,结果M=65、S=10,问约多少人及格?你的成绩是75分,问排名约为多少?(假设成绩呈正态分布)

2、P→Z例:Z~N(0,1),已知下列P,求Z0值。

①P(0<Z≤Z0)=.498

②P(-Z0<Z≤Z0)=.706

③P(Z≥Z0)=.05

实例:某公司要通过业务能力考核来裁员,员工共计2800人,欲裁450人。考核结果为M=68、S=9,问裁减分数线宜定为多少?(假设考核成绩呈正态分布)

3、P或Z→Y(如,二列相关系数的计算等)

三、次数分布是否正态的检验方法[自习]

四、正态分布理论的应用P167

1、化等级评定为测量数据前提:被评定的心理量呈正态。步骤(5步,P→Z,自习)

2、确定测验题目的难易度前提:测验中不同难易题目的分布呈正态。步骤(4步,P→Z,自习)

3、在能力分组或等级评定时确定人数假定:总体正态;正负三个标准差含所有数据。步骤(3步,Z→P,自习)

4、测验分数的正态化(T分数转化,要求总体正态)

第三节二项分布(也称贝努里分布)P176[自习]

一、二项试验(需满足的条件)

1)任何一次试验恰好只有两个结果。2)共有n次试验(n为预定的任一正整数)。3)每次试验各自独立。4)某结果出现的概率在任何一次试验中固定。

二、二项分布:二项试验结果的概率分布

二项分布的性质①p=q,对称;n足够大,趋于正态(pq且nq≥5),正态分布是二项分布的极限。②当接近正态时,其μ=np、σ2=npq。

三、二项分布的应用(解决测验中的机遇问题)

第四节样本分布(抽样分布)P182

即样本统计量的分布[有放回多次等量随机取样]

一、正态或渐近正态分布(即Z分布,对应于Z检验)

1、样本平均数的分布

1)总体正态、总体方差已知,样本平均数的分布呈正态分布。

符号:,-变异误,-标准误SE

2)总体非正态、总体方差已知、大样本,样本平均数呈渐近正态分布。

2、样本方差及标准差的分布。(精确为χ2分布)

其他:两总体方差已知,两样本平均数之差的分布等等。

二、t分布(对应于t检验)

如,总体方差未知时,样本平均数的分布

t分布与自由度有关(degreesoffreedom,df:可以自由变化的数据个数)。(∵用Sn-1估计σ,∴df=n-1)

1、t分布的特点①M=0;②对称分布;③取值范围(-∞,+∞);④大样本时渐近正态,df→∞时为正态。

2、t分布表的使用P453附表2

二、t分布3、样本平均数的分布1)总体正态、总体方差未知,样本平均数呈t分布。2)总体非正态、总体方差未知、大样本,样本平均数呈t分布。其他:两总体方差未知,两样本平均数之差的分布等等。提醒:心理学研究中更多情况下是“总体方差未知”,因此,使用t检验比Z检验多得多。 (SPSS中只有t检验)

三、χ2分布(对应于χ2检验)如,样本方差与总体方差之比的分布等

μ未知。注:SS-离均差的平方和

1、χ2分布的特点

①正偏态,df→∞时为正态;②χ2均为正值;③具有可加性;④其平均数为df,方差为2df;⑤有些离散分布也近似χ2分布。

2、χ2分布表的使用P475附表12

其他:计数资料的假设检验(第十章P294公式10-1)。

四、F分布(对应于F检验,如方差分析等)

如,两样本方差之比的分布(方差齐性检验)

-df分子=n1-1

-df分母=n2-1

1、F分布的特点①正偏态,两个df→∞时为正态;②F均为正值;③df分子=1时,F(单测)=t2(双侧),表明方差分析包括t检验的功能。

2、F分布表的使用P455附表3(双侧)P459附表4(单侧)

本节提要/要点

一、哪些样本统计量属于什么分布(以M、S为例)

1、总体正态、σ已知,M服从Z分布;

(P183公式6-5、6-6)

2、总体正态、σ未知,M服从t分布;

(P185、187公式6-9、6-11,df=n-1)

3、总体正态、S2(与σ2之比)或ΣZ2服从χ2分布;

(μ已知,P187公式6-12前,df=n;μ未知,P188公式6-13,df=n-1)

4、两总体正态、S12与S22之比服从F分布;

(P190公式6-15,df分子=n分子-1、df分母=n分母-1)

二、各种分布的特点及其分布表的使用(查表)。

第七章参数估计

第一节点估计、区间估计与标准误第二节总体平均数的区间估计第三节总体方差的区间估计第四节其他参数的区间估计

第一节点估计、区间估计与标准误

参数估计:根据抽样结果(即样本统计量)来合理估计总体参数的数值或范围。

一、点估计:用样本特征值来估计总体参数。P196优点:能提供总体参数一个数值。缺点:总是以误差的存在为前提,却不能提供正确估计的概率。P198

二、衡量估计量好坏的标准1)无偏性:要求所有可能的特征值与参数真值之间偏差的平均数为零。(无系统偏差,找最精确的)

①总体平均数的点估计:

②总体方差的点估计:

二、衡量估计量好坏的标准2)有效性:有效的估计量应该是其方差越小越好。(找受抽样变动小、最稳定的)3)一致性:当n→∞时,估计值应收敛于总体真值。4)充分性:充分反映出全部样本数据所代表的总体信息。

三、区间估计与标准误P1981、区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围。(得出估计的范围与正确估计的可能性)

三、区间估计与标准误

2、置信区间(confidenceinterval)与显著性水平(significancelevel)

置信区间是指在某一置信度(得出结论的正确把握程度)时,总体参数所在的区域距离。(置信区间的上下两端点数值称为置信界限)

显著性水平是指估计总体参数落在某区间时可能犯错误的概率,常用α(或p)表示。则1-α为置信度。(显著性水平越高表示的是α值越小,即犯错误的可能性越低)

α为预先设定的临界点,常用的如.05、.01、.001;p为检验计算所得的实际(犯错误)概率。

3、区间估计的原理与标准误

其原理为“样本分布理论”——用标准误来计算区间长度,并解释参数落在该区间的概率。

涉及两个问题:①成功估计的概率大小——置信度;②估计范围的大小——置信区间。在样本容量一定的情况下,两者相互矛盾。因此,我们通常是在保证置信度的前提下尽可能提高精确度。(常用的显著性水平为.05与.01,对应于置信度为.95与.99)

[自习]以“总体平均数的区间估计”为例来讲述其原理。P199

第二节总体平均数的区间估计

所有区间估计的基本思路:让某检验值(如Z、t、χ2、F)处在我们所要估计的范围内。

一、估计μ的步骤1、计算研究样本的M与S(或Sn-1)。

2、计算标准误SE。

σ2已知,;σ2未知,。

3、确定置信度1-α或显著性水平α。

统计学上常用α=.05或.01(保证犯错误的可能性很小的前提下进行区间估计)。

一、估计μ的步骤4、根据样本平均数的分布,确定查哪个表。σ2已知,查正态分布表,求Zα/2;σ2未知,查t值表,求tα/2(df)。

5、计算置信区间CI。σ2已知,区间为M-Zα/2SE<μ
二、σ2已知,对μ的区间估计(Z分布,例7-1&2)

三、σ2未知,对μ的区间估计(t分布,例7-3&4)

置信区间的影响因素(如何↘CI)

1、置信度1-α:↘(即显著性水平α↗)↘2、样本容量N:↗↘

3、样本的离均差平方和SS(离散程度):↘↘

第三节总体方差的区间估计P206

一、总体标准差的区间估计

n足够大,样本标准差的分布为渐近正态分布。[少用]

二、总体方差的区间估计所依据的更精确的样本分布为χ2分布。

1)μ已知,,df=n

2)μ未知,,df=n-1

计算原理:,得公式7-7(μ未知)。

实例

三、两总体方差之比的区间估计(F分布)[自习]P208

第四节其他参数的区间估计

一、总体积差相关系数ρ的抽样分布与区间估计等[相当复杂,自习,计算思路同上]P210

二、总体比率的区间估计P214

当二项分布呈渐近正态分布时,μ=np、σ2=npq。转换成比率为

同理可得公式7-17。自习[例7-12、例7-13]

第八章假设检验第一节假设检验的基本概念与原理第二节平均数的显著性检验(单样本)第三节平均数差异的显著性检验(双样本)第四节方差的差异检验第五节其他统计指标的显著性检验[自习,尤其理解对r的检验]

第一节假设检验的基本概念与原理P222

基本推论过程:通过检验样本统计量得出的差异来判断总体参数之间是否存在差异。

区分为:参数检验vs.非参数检验

假设检验应用实例(以“平均数的单样本检验”为例)

例1:某校欲在新生中试用一种新的教学法。一学年后,随机抽取36人得到的成绩为82。而以前各年级在相应学年的总体成绩为79(12)。问新旧的教学法对成绩有显著影响吗?(α=.05,总体呈正态分布)

例2:某地区官员称该区人均月收入已达1200元。质疑者随机调查了100名该区居民,得出人均月收入为1100元、标准差为400元。问该调查结果能推翻那位官员的话吗?(α=.05,总体呈正态分布)

一、两个假设:虚无假设与备择假设(以“平均数的单样本检验”为例)P222

虚无假设(nullhypothesis,也叫无差假设、零假设):记作H0:μ=μ0,即样本所代表的总体均值μ与已知总体均值μ0无差别。

备择假设(alternativehypothesis,也叫对立假设、研究假设):记作H1:μ≠μ0,即两者存在差异。

而假设检验的过程就是“在设定虚无假设成立的前提下,检验样本数据出现我们所看到的情况的概率。其概率越小,越有理由拒绝H0、接受H1”。可见,假设检验的基本思想是概率性质的反证法。

二、小概率原理P223

小概率事件在一次试验中不可能发生。

通常将发生概率不超过0.05(或0.01)的事件当作小概率事件。(即α=.05或.01)

也就是,在设定H0成立的前提下,如果得出我们所收集的样本数据情况的出现可能性极低(如≤.05),那么我们就有理由认为,这种情况不可能发生,则拒绝H0、接受H1;如果出现可能性并不足够低,那么也就没有足够理由拒绝H0。

三、两类错误:Ⅰ类错误与Ⅱ类错误P224及图8-2

接受或拒绝H0均存在犯错误的概率。

Ⅰ类错误(α错误):(H0为真)拒绝H0/接受H1所犯的错误(弃真)。(即真实没差异却得出有差异)

“1-α”意为正确接受H0的可能性。

Ⅱ类错误(β错误):(H0为假)接受H0所犯的错误(纳伪)。(即真实有差异却得出没有差异)

“1-β”意为正确拒绝H0的可能性。

α错误比β错误更为严重,因此,在n一定的情况下应尽量控制α,使其足够小(遵循小概率原理)。

三、两类错误:Ⅰ类错误与Ⅱ类错误

两类错误的关系P226图8-3及图8-4

①通常α+β≠1。(两者之和与1根本没关系,实际上两者没啥直接关系)

②条件不变时,α与β不可能同时减小或增大、或只是某一种错误产生变化。

要想α固定、β减小,可增加n。

③统计检验力(1-β):正确辩别真实差异的能力。(真实有差异、统计检验也得出有差异的能力)

格外注意:统计检验显著vs.实际意义显著

统计检验是否显著受三方面的影响:①实际差异幅度(实际意义);②置信度或α大小;③样本容量n。(即前者是后者的必要条件,但不是充分条件)

统计意义上得出差异显著只表明,研究者有很大把握得出,其样本所代表的总体(某参数)之间存在差异,至于差异是否达到实际意义,需要看实际情况!

四、两种检验形式:双侧检验与单侧检验P228

双侧检验(双尾检测,two-tailedtest):只检验是否存在差异,不考虑方向性。

单侧检验(单尾检测,one-tailedtest):检验在方向上是否存在差异。

两者要根据实际问题或研究目的来选用。[自习书中例题及两者的关系](对于同一资料,如果双侧检验得出差异显著,则用单侧检验也肯定得出差异显著;但反之则不必然。图8-7)

平时用的几乎都为“双侧检验”!

五、假设检验的步骤P229

1、按实际要求,提出假设(H0与H1)。2、根据已知数据资料,选择适当的检验统计量(Z、t、χ2、F)。3、规定显著性水平α(默认.05)。4、计算检验统计量的具体值。[“应用公式”环节]5、查表得临界值。[注意单侧/双侧的选择,df的确定]6、做出决策:将检验值与临界值作比较,并得出结论(|检验值|≥临界值,则p≤α,差异显著;反之则差异不显著)。[指统计意义上的显著]提醒:本章及后两章所有检验均为此步骤!差异比较涉及两种情况:①单样本;②双样本。(以及多样本)另外,差异比较还区分为“平均数的”、“方差的”、“相关系数的”、“比例的”。

第二节平均数(单样本)的显著性检验P231

一、总体正态,σ2已知。(Z检验,自习例8-3)

二、总体正态,σ2未知。(t检验,自习例8-4)

[自习]三、总体非正态

大样本。(Z`检验,同Z检验)

小样本。(非参数检验,第十一章)

1、从某地区随机抽样调查100人,得到智商的均值为103。已知智商常模为100(15)。问该地区人的智商与一般水平是否有差异?(α=.05,总体正态)

明确:单样本情况实际上是检验该样本所代表的总体与给定/已知总体之间均值(或方差等)的差异。 [与书中讲述略有不同,下同]

练习:问“是否属于单样本情况的均值差异检验”?1、已知全班总人数、某门课程成绩的平均数与标准差及某两位学生的成绩,求这两位学生成绩的相对排名差异。2、已知某量表的青年常模分数,现随机抽查一批大学生,算得均值与标准差,求在该量表得分上大学生与青年常模分数之间是否存在差异。3、已知随机抽取四个年级大学生心理健康水平的平均数与标准差,求大学生心理健康水平在年级上是否存在差异。4、已知一般人的视简单反应时,测得某拳击手50次的视简单反应时,求该拳击手的视简单反应时与一般人是否存在差异。

第三节平均数差异P235

通过比较两样本均值的差异(X1-X2)来检验各自所代表的两总体均值的差异(μ1-μ2)。

补充:独立样本vs.相关样本(涉及“实验设计”)



相关组设计:一个被试接受所有实验处理(属被试内设计),或被试在各处理上进行了匹配(匹配设计,不常用,属被试内设计)。

最大特征:两样本数据存在一一对应关系。[可计算r]

提示:调查研究中有关属性变量中不同水平之间的差异检验(如性别差异、学科差异、年级差异)均为“独立样本检验”。而实验研究中有时会用相关组设计。

明确:“双样本情况”实际上是检验两个样本各自所代表的总体之间均值(或方差)的差异。

练习:问“是否属于双样本情况的均值差异检验”?(以及是属于独立样本还是相关样本?)

1、考察高兴与悲伤状态下注意广度的差异。将被试随机分配到两组,每个被试只接受一种状态下的实验处理。2、考察环境对心理发展的影响。采用同卵双生子研究。3、考察某种早期训练对儿童记忆力的影响。采用“实验组—控制组设计”。4、考察不同视角倾斜度(20Ο/40Ο/60Ο)对错觉量的影响。每个被试均接受三种条件下的实验。5、比较大四学生与其他年级学生的状态焦虑的差异。

练习:问“是否属于双样本情况的均值差异检验”?(以及是属于独立样本还是相关样本?)

6、检验某技能特训的效用。采用前测-后测的比较设计。7、已知人们一般状况下的脉搏。考察焦虑状况下人的脉搏与一般状况下的有无差别。8、考察家庭中夫妻之间收入的差异性。9、考察对红、绿、黄三种色光的简单反应时的差异性。每个被试均接受三种色光下的实验处理。

一、两总体正态,两σ2已知。(Z检验)P235

1、独立样本 [例8-6]

2、相关样本(需先求出相关系数r) [例8-7]

Z值计算同上。

一、两总体正态,两σ2已知。(Z检验)

例1:有实验考察有无提示对问题解决用时的影响。被试为25人,每个被试均接受有/无提示两种条件下的作业。结果为无提示条件下的平均用时为23分钟、有提示的为20分钟,相关系数为0.6。据以往资料得知有/无提示的总体标准差分别为6分钟与5分钟。问能否说有提示促使了更快的问题解决?(α=.01,总体正态)

二、两总体正态,两σ2未知。(t检验)P237

1、独立样本 [必须要先进行“方差齐性检验”P245]

⑴两总体方差一致/齐性

[例8-8]

用联合方差来估计σ2,即

二、两总体正态,两σ2未知。(t检验)

1、独立样本

⑴两总体方差一致/齐性

当两样本容量相同时,即n1=n2=n

公式变得简单明了,(在无电脑与统计软件的年代,这种设计)值得推荐。

二、两总体正态,两σ2未知。

1、独立样本

⑵两总体方差不齐性(t`检验) [例8-9]

但(联合)临界值的计算较为复杂:



当|t`|
二、两总体正态,两σ2未知。(t检验)

2、相关样本 [无需进行方差齐性检验]

⑴r未知 [例8-10]

di为每对数据的差值,d为di的均值,sd2为di的方差,n为数据成对数

⑵r已知 [例8-11]

,t值计算及df同上。

[自习]三、两总体非正态,两样本均为大样本。(Z`检验,计算过程同Z检验,亦同于t检验)P242

注:总体方差未知时,由于n较大,可直接用s近似估计σ。

再次提醒:t检验比Z检验更为常用。(SPSS中仅有t检验)

例1:比较大四学生与其他年级学生的状态焦虑的差异。随机调查了22名大四生与61名其他学生,求出大四生得分为26±5、其他学生的为22±4。问差异是否显著?(α=.05,总体正态) [只需要知道如何算,不需要进行具体运算]

例5:检验某技能特训的效用。采用前测-后测的比较设计。结果如下。问差异是否显著?(α=.05,总体正态)[上机自练]

被试 一 二 三 四 五 六 七 八 九 前测 106 151 162 112 120 147 181 138 109 后测 147 189 172 154 153 139 200 162 153 第四节(涉及)方差的显著性检验

一、样本方差与总体方差的差异检验(单样本,检验样本所代表的总体方差与已知总体方差之间的差异。χ2检验)P244

根据已知条件来确定双侧/单测检验,并查表得出临界值(注意从两个值中选择适当的一个)。最后通过比较来进行决策。[自习例8-12]

实例:已知全年级女生身高的标准差为5cm,随机抽取我班女生15人,计算得她们身高的标准差为4cm。问我班女生身高与全校女生身高在离散程度上是否存在差异?(α=.05,总体正态)

二、两个样本方差之间的差异检验(双样本,检验两样本各自所代表的两总体方差之间的差异。F检验)P245

1、独立样本(如进行双侧检验,即为方差齐性检验)

为查表方便,通常用,与临界值进行比较,并做出决策。 [例8-13,例8-14]

2、相关样本[自习]

实例

第五节其他统计指标的显著性检验[自习]

积差相关系数的显著性检验(设“H0:ρ=0”的情况)P2

,或直接查P469附表7。

其目的为:已知两样本的r,检验两总体是否存在相关。

二、比率的显著性检验(单样本)P253

渐近正态:,或直接查P477附表13。(亦可用χ2检验)

第九章(单因素)方差分析P263

第一节方差分析的基本原理与步骤第二节完全随机设计的方差分析(独立样本F检验)

第三节随机区组设计的方差分析(相关样本F检验)第四节事后检验(事后多重比较)

第一节方差分析的基本原理与步骤

方差分析(analysisofvariance,ANOVA)主要处理多于两个以上平均数之间的差异检验问题(检验多个样本各自所代表的总体之间均值的差异)。又称变异数分析或F检验。

区分为:单因素方差分析;多因素方差分析;[多元方差分析]提醒:完全随机设计与随机区组设计对应于独立样本与相关样本。

方差分析检验的虚无假设为:各样本所代表的各总体均值均相等。(即综合虚无假设)P263

那么备择假设呢?注:方差分析在考试计算时无需写出假设

一、方差分析的基本原理:方差的可分解性

(独立样本F检验的)逻辑思想:从总变异中分解出组间变异(由自变量不同水平/分组引起)及(不可再分的)误差变异(也称残差、在独立样本F检验中称组内变异)。当组间变异占总变异的较大比例(即远大于误差变异)时,我们认为组间效应显著(即因变量在自变量不同水平上的均值差异明显)。P264图9-1

相关样本F检验则是在此基础上再分解出区组变异(由不同区组引起、在被试内设计中也称被试变异)。

一、方差分析的基本原理

1、各平方和(sumofsquares)的关系:

总平方和为所有原始数据与总均值的离均差平方和

组间平方和为 (即在上一公式中,用所属组的均值代替原始数据/观测值)

组内平方和为

2、平方和除以自由度所得的样本方差可作为其总体方差的无偏估计。组间方差/均方为组内方差/均方为各自由度之间的关系:

3、方差分析中关心的是组间均方是否显著大于组内均方,所以采用单侧F检验:其临界值为F

二、方差分析的基本步骤P267(结合表9-1的数据)

①(用原始数据)求平方和SS:

宜先求过渡数值

②求自由度df:

③求均方MS:

④求检验值F:

⑤查F值表(单侧)得临界值Fα(dfB,dfW),做出决断

⑥(如有必要,)呈现方差分析表(及描述统计结果)

[如果得出差异显著,则需进行事后检验/多重比较。]

三、方差分析的前提条件P270

①各总体服从正态分布

②变异的相互独立性

③各处理内的方差一致/齐性

[实际上方差分析具有较强的“韧性”]

四、方差分析中的方差齐性检验P270

Hartley最大比率法

临界值查P467附表5(查表自由度取较大的)。若检验值小于临界值,则方差齐性;反之则方差不齐性,原则上不宜进行方差分析。

五、与方差分析有关的实验设计问题

①组间设计/被试间设计:将被试分成若干个组,每组/每个被试分别只接受一个实验处理,即不同的被试接受自变量不同水平的实验处理。(完全随机设计,属独立样本情况)[匹配设计除外]

②组内设计/被试内设计:每个被试要接受自变量所有水平的实验处理。(随机区组设计,属相关样本情况)[匹配设计也属区组设计]

③混合设计:涉及有多个自变量的实验设计(对应于多因素方差分析),其中有的自变量为组间设计、有的为组内设计。

第二节完全随机设计的方差分析P272

一、各实验处理组样本容量相同

计算步骤同上[例9-2“等重复情况”]

原始数据为:积极反馈组(8、7、9、10、6),消极反馈组(5、6、7、4、3),控制组(2、4、5、3、6)

设H0:μ1=μ2=μ3

先求所需的过渡计算值。

①求SS;②求df;③求MS;④求检验值F;⑤查临界值并比较,得出结论;⑥列出方差分析表

二、各实验处理组样本容量不同(更常见)

计算步骤不变[例9-3/4“不等重复情况”],只是组间平方和的计算略有变:

实例演练:

例1、考察大学生学业压力量表得分是否存在显著的年级差异。随机抽取大一生52人、大二生46人、大三生38人、大四生22人进行施测。已从原始数据中计算得出:SST=329,SSB=21。试分析组间效应(即研究目的)是否显著?(α=.05,总体正态,方差齐性)

第三节随机区组设计的方差分析P279

又称组内设计或重复测量(repeatedmeasures,即对每个被试测定多次)设计。

较之完全随机化设计,随机区组设计的优点:①要求被试量少,更经济;②从组内变异SSw中再分离出区组变异SSR,提高统计精确性。 缺点:划分区组困难,有时根本不能用此设计(难以匹配或无法重复测量)。

一、SSR的计算公式

二、计算步骤同上[例9-6]

原始数据为:时间1组(5、7、8、3、9、5、7),

时间2组(6、6、9、4、8、4、10),

时间3组(6、7、9、4、9、6、8),

时间4组(5、8、10、6、7、9、9)。

二、计算步骤[例9-6,其基本步骤同独立样本F检验]

设H0:μ1=μ2=μ3=μ4

先求所需的过渡计算值(X2及最下行、最右列)。

①求SS:SST=SSB+SSR+SSE;

②求df:dfT=dfB+dfR+dfE,dfR=n-1(n为区组个数,如果为被试内设计则等同于被试个数);

提醒:此处N为总数据个数,即dfT=N-1=nk-1。

③求MS:SS除以相应的df;

④求F:研究要检验的是组间效应是否显著,因此计算F=MSB/MSE,(检验区组效应为F=MSR/MSE);

⑤查临界值并比较,得出结论;

⑥列出方差分析表

第三节随机区组设计的方差分析

实例演练:

例1、考察所呈现汉字的模糊程度对汉字识别的影响。设置模糊程度为0%、25%、50%、75%四个水平,以正确识别的反应时为反应指标。抽取被试45人,每人均接受四个水平下的实验处理。已从原始数据中计算得出:SST=276,SSB=12,SSR=132。试分析组间效应(即研究目的)是否显著?(α=.05,总体正态,方差齐性) [另问:区组效应是否显著?(即被试之间在汉字识别上是否存在显著差异)]

第四节事后检验

当H0被拒绝时(即差异显著),就必须对各组均值进行进一步分析,以判断究竟哪两组之间存在差异,确定自变量与因变量关系的本质,这就是事后检验(posthoctest),也称多重比较(multiplecomparisonprocedures)。

提醒:不能用两两t检验代替多重比较,不然犯α错误的概率会大幅提高。

常用的检验方法:LSD法(修正后的两两t检验),S-N-K检验法、Scheffe法等。

第十章χ2检验

第一节χ2检验的原理第二节配合度检验(单变量情况)第三节独立性检验(双变量情况)

第一节χ2检验的原理P292

适用于离散数据(称名、顺序)的显著性检验,是对次数分布(计数资料)的差异检验。

χ2检验属非参数检验,比参数检验的适用面更广;但功效远低于参数检验。

一、基本公式: P294

处理的是实际观测频数fo与理论期望频数fe是否存在差异的问题。

例1:重庆师范大学男女生比例是否存在显著差异?(理论上男女生人数应相同) [配合度检验/单变量]

例2:考研意向(区分为考研/不考研)是否存在性别差异? [独立性检验/多变量]

二、χ2检验的假设P293

1)分类相互排斥、互不包容。(互斥原则)

2)各观测值相互独立。

3)期望频数的大小。(适用性)

一般要求:每个单元格中的期望频数应大于5。

三、χ2检验的类别(区分为单变量情况/配合度检验、两个及以上变量情况/独立性检验、同质性检验)[自习]P293

四、期望次数的计算(区分为单变量与多变量情况,特别是双变量交叉四格表的期望频数的计算/表10-1)[自习]P295

五、期望次数过少的连续性校正[自习]P295

第二节配合度检验(单变量情况)P297

检验单一变量的实际观测次数与某理论期望次数是否有差异。

一、配合度检验的一般问题

1、统计假设

H0:fo=fe;H1:fo≠fe。

注意:得出的均为双侧的结论,但查临界值用的是P475附表12的单侧! [没错的,其原因同“方差分析”]

2、df的确定:一般为分类项数减1。(连续数据的正态拟合检验中为减3)

3、fe的确定。(关键步骤,视实际情况而定)

其具体解题步骤同之前的“假设检验”

二、配合度检验的应用

1、检验无差假说:理论次数完全按概率相等的条件计算。[例10-1、10-2、10-6、10-7]

2、检验假设分布/有差假说的概率。[例10-3样本数据是否符合正态分布、10-4是否符合经验]

三、连续变量(分组次数)分布的吻合性检验

[例10-5连续数据的正态拟合检验。df=分类项数-3]

例1:理论上内向与外向的人数应为相同。实际调查了100人,结果为外向的60人、内向的40人。问该结果能否推翻理论上的无差假说?

第三节独立性检验(多变量情况)P307

适用于两个或两个以上变量的计数资料分析,常用于研究两个变量之间的关联性。

一、独立性检验的一般问题与步骤

适用资料:R×C列联表(所以独立性检验又称列联表分析)

1、统计假设:通常用文字描述[解题时根本不用说]

2、各单元格fe的确定:

3、df的确定:

4、统计方法的选择。(用基本公式,除了四格表)

5、结果及解释。(按具体数据来下结论)

二、四格表的独立性检验

1、独立样本:[例10-10。很常用]

简便公式:,df=1

需明确ABCD及N的含义。公式10-7及其下图

2、相关样本:[例10-11,多为“前测-后测设计”的情况]

简便公式:,df=1

需明确AD的含义(前后测不一致的两个计数数值)。公式10-8及例10-11中的图示

例1:考察有无提示对问题解决的影响。每名被试只参加其中一组的实验。实验结果为:有提示组60人,有40人顺利解题;无提示组40人,有10人顺利解题。问有无提示对问题解决的影响是否显著?

希腊字母的发音

序号 大写 小写 英文注音 国际音标注音 中文注音 1 Α α alpha a:lf 阿尔法 2 Β β beta bet 贝塔 3 Γ γ gamma ga:m 伽马 4 Δ δ delta delt 德尔塔 5 Ε ε epsilon ep`silon 伊普西龙 6 Ζ ζ zeta zat 截塔 7 Η η eta eit 艾塔 8 Θ θ thet θit 西塔 9 Ι ι iot aiot 约塔 10 Κ κ kappa kap 卡帕 11 Λ λ lambda lambd 兰布达 12 Μ μ mu mju 缪 13 Ν ν nu nju 纽 14 Ξ ξ xi ksi 克西 15 Ο ο omicron omik`ron 奥密克戎 16 Π π pi pai 派 17 Ρ ρ rho rou 肉 18 Σ σ sigma `sigma 西格马 19 Τ τ tau tau 套 20 Υ υ upsilon jup`silon 宇普西龙 21 Φ φ phi fai 佛爱 22 Χ χ chi phai 西 23 Ψ ψ psi psai 普 24 Ω ω omega o`miga 欧米伽心理学统计符号列表和释义 印刷体 英文释义 中文释义 ANCOVA Analysisofcovariance 协方差分析 ANOVA Analysisofvariance(univariance) 方差分析(单变量) d Cohen’smeasureofeffectsize 用于柯斯二氏检验 d’ (dprime)measureofsensitivity 敏感性测量或辨别力 D UsedinKolmogorov-Smirnovtest 用于Kolmogorov-Smirnov检验 df degreeoffreedom 自由度 f Frequency 频次 fe Expectedfrequency 期望频次 F Fisher’sFratio 费舍F比率 Fmax Hartley’stestofvariancehomogeneity Hartley’s方差齐性检验 H UsedinKruskal-Wallistest;alsousedtomeanhypothesis 用于克-瓦氏检验;也可代表“假设” H0 Nullhypothesisundertest 检验中的虚无假设 H1 Alternativehypothesis 对立假设或备择假设 HSD Tukey’shonestlysignificantdifference(alsoreferredtoastheTukeyaprocedure) Tukey’s真实显著性差异 k Coefficientofalienation 离散系数 k2 Coefficientofnondetermination 非决定系数 K-R20 Kuder-Richardsonformula 库理20号公式 LR Likelihoodratio(usedwithsomeChi-square) 似然比(与一些卡方值一同使用) LSD Fisher’sleastsignificantdifference 费舍最小显著性差异 M Mean(arithmeticaverage) 平均数(算术平均数) MANOVA Multivariateanalysisofvariance 多元方差分析或多因变量方差分析 Mdn Median 中数 mle Maximumlikelihoodestimate(usedwithprogramssuchasLISREL) 最大似然估计(与诸如LISREL之类的程序一起使用) mode Mostfrequentlyoccurringscore 众数 MS Meansquare 均方 MSE Meansquareerror 均方误 n Numberinasubsample 样本数 N Totalnumberinasample 样本总数 ns Nonsignificant 差异不显著 p Probability;alsothesuccessprobabilityofabinomialvariable 概率;也指二项分布中的成功概率 P Percentage,percentile 百分比;百分位数 pr Partialcorrelation 偏相关 q 1-pforabinomialvariable 二项分布中1-p的值 Q Quartile(alsousedinCochran’stest) 四分差 r Pearsonproduct-momentcorrelation 皮尔逊积差相关 r2 Pearsonproduct-momentcorrelationsquared;coefficientofdetermination 皮尔逊积差相关的平方;决定系数 rb Biserialcorrelation 二列相关 rk Reliabilityofmeankjudges’ratings 评分者信度 r1 Estimatedreliabilityofthetypicaljudge 典型判断的估计信度 rpb Point-biserialcorrelation 点二列相关 rsrR Spearmanrankcorrelationcoefficient(formerlyrho[ρ]) 斯皮尔曼等级相关系数(以前用ρ表示) R Multiplecorrelation;alsocompositerank,asignificancetest 多重相关;也可表示等级 R2 Multiplecorrelationsquared;measureofstrengthofrelationship 多重相关的平方;关系强度的测量 SD Standarddevation 标准差 SE Standarderror 标准误 SEM Standarderrorofmeasurement 测量的标准误 sr Semipartialcorrelation 半偏相关 SS Sumofsquares 平方和 t Computedvalueofttest t检验统计量 T ComputedvalueofWilcoxon’sorMcCall’stest 威尔科克逊或麦考尔检验统计量 T2 ComputedvalueofHotelling’stest Hotelling’s检验的统计量 Tukeya Turkey’sHSDprocedure Turkey’sHSD程序 U ComputedvalueofMann-Whitneytest 曼-惠特尼检验统计量 V Cramer’sstatisticforcontingencytables;Pillai-Bartlettmultivariatecriterion 列联表的Cramer’s统计值,根据卡方系数计算公式而得 W Kendall’scoefficientofconcordance 肯德尔和谐系数 x Abscissa(horizontalaxisingraph) 横坐标 y Ordinate(verticalaxisingraph) 纵坐标 z Astandardscore;differencebetweenonevalueinadistributionandthemeanofthedistributiondividedbytheSD 标准分;一个分布中的某变量和平均数的差距除以SD所得值 |a| Absolutevalueofa a的绝对值 α Alpha;probabilityofaTypeIerror;Cronbach’sindexofinternalconsistency 犯?型错误的概率;克伦巴赫内部一致性信度系数 β Beta;probabilityofaTypeerror(1-βisstatisticalpower);standardizedmultipleregressioncoefficient 犯型错误的概率(1-β为统计检验力);标准化多元回归系数 γ Gamma;Goodman-Kruskal’sindexofrelationship Goodman-Kruskal’s关系指数 Δ Delta(cap);incrementofchange 变化的增加量 η2 Etasquared;measureofstrengthofrelationship 关系强度的测量 θ Theta(cap);Roy’smultivariatecreterion Roy’s多因变量检验标准 λ Lambda;Goodman-Kruskal’smeasureofpredictability Goodman-Kruskal’s预测系数 Λ Lambda(cap);Wilks’smultivariatecriterion 大写Lambda;Wilks’s多因变量检验标准 ν Nu;degreesoffreedom 自由度 ρ1 Rho(withsubscript);intraclasscorrelationcoefficient Rho(带下标);组内相关(类相关)系数 Σ Sigma(cap);sumorsummation Sigma(大写);相加求和 ? Tau;Kendall’srankcorrelationcoefficient;alsoHotelling’smultivariatetracecriterion Tau;Kendall’s等级相关系数;也表示Hotelling’s多变量trace检验标准 φ Phi;measureofassociationforacontingencytable;alsoaparameterusedinadeterminingsamplesizeorstatisticalpower Phi;列联表相关指标;也用作决定样本量的参数或统计检验力 φ2 Phisquared;proportionofvarianceaccountedforina22contingencytable Phi的平方;2×2列联表方差比例 χ2 Computedvalueofachi-squaretest 卡方检验值 Ψ Psi;astatisticalcomparison Psi;统计比较 w2 Omegasquared;measureofstrengthofrelationship Omega的平方;关系强度的测量 ^ (caret)whenaboveaGreekletter(orparameter),indicatesanestimate(orstatistic) 用于希腊字母或符号的上面表示估计或统计



第四章:差异量数

,,,,



第五章:相关分析

其中,,可改写为



第八章:假设检验

单样本t检验

,。

独立样本t检验

方差齐性检验

(当两样本足够大;一般是大的除以小的)

,,;当两样本大小相同时、。

相关样本t检验

r未知、;r已知、。



第九章:方差分析

单因素独立样本F检验/完全随机化设计的方差分析

,,(样本容量不同时,),;

,,,,

单因素相关样本F检验/随机区组设计的方差分析

,,,,

二因素独立样本F检验/





第十二章:回归分析

最小二乘法:设回归方程为。,。

与r的关系:

决定系数,表示变量Y的变异有r2是由变量X的变异引起









献花(0)
+1
(本文系重庆覃瑞首藏)