如何通俗理解线性回归？ | 30天学会医学统计与SPSS公益课(Day16)

墨季ajdhaj0oht 2021-04-17

展开全文

1.9分钟视频介绍：为什么推荐您学习这门课?

2. 课程所需的SPSS全套视频、数据库、讲义下载

2021年如何学习医学统计学？无偿奉上我们精心制作的医学统计学全套资料

3.“高校公益免费课程新一期” 详细介绍：

公益课程“30天学会医学统计与SPSS”再次开课，欢迎入群学习！

如果您真的能够坚持，发送关键词“打卡”，加入微信学习群吧。骗人？不存在的。你们能够学会医学统计学，我将视为这是一种成就。

此外面向医务工作者，我们也开设“统计跟学课程”【学不会全额退款】：

面向医务工作者的“30天学会分析医学数据”新一期课程即将开课

Day 16：简单线性回归的历史与基本方法

隶属第四章：现况调查的统计分析策略

本日学习任务

1. 微信群内视频2段（共31分钟）

2. 公众号公开推文1段：Day16

3. 微信群内测试题

4. SPSS实操和群内讨论

欢迎加入高校公益免费群全面学习医学统计学与SPSS应用（发送关键词“打卡”到公众号）

无论实验性研究还是观察性研究，线性回归分析十分重要，尤其是现况调查和队列研究。在现况调查中，回归分析既可以初步探索变量与变量的关系，也可以通过多变量的回归分析开展复杂关联性分析（下图）。

现况调查的分析过程及回归分析的位置

学习回归分析，首先得了解回归的历史，模型的定义，建模的意义等，本文将基于简单线性回归，来帮助大家全面了解线性回归分析。

回归分析的历史

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822～1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。

1855年，高尔顿发表《遗传的身高向平均数方向的回归》一文，他和他的同事通过观察1078对夫妇的身高数据，他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。当父母越高或越矮时，子女的身高会比一般儿童高或矮。

他将儿子与父母身高的这种现象拟合出一种线形关系，分析出儿子的身高y与父亲的身高x大致可归结为一下关系：

Y= 0.8567+0.516*X (单位为米);

假如父母辈的平均身高为1.75米，则预测子女的身高为1.7597米。这种趋势及回归方程表明父母身高每增加一个单位时，其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。

有趣的是，通过观察，高尔顿还注意到，尽管这是一种拟合较好的线形关系，但仍然存在例外现象：矮个父母所生的儿子比其父要高，身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说，当父母身高走向极端，子女的身高不会象父母身高那样极端化，其身高要比父母们的身高更接近平均身高，即有“回归”到平均数去的趋势，这就是统计学上最初出现“回归”时的涵义，高尔顿把这一现象叫做“向平均数方向的回归”(regression toward mediocrity)。

“回归”一词正式流传下来，不过后来的统计学看重的不是“向平均数方向的回归”而是高尔顿建立起来的回归方程。这个回归方程是一个函数，它不能准确反映父亲身高和子代身高的关系，但是却可以大致判断，并且在一个群体水平计算父亲身高对子女的影响的平均值，可以反映父亲身高与子女身高的因果关系。

“回归”逐渐成为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法，成为百年来经久不衰的统计学方法。

回归关系，即一种用数学函数描述的变量的数量依存关系，而且主要是因果关系。

线性回归分析的模型

▌什么是模型？

模型(model)模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式比如，地球仪是一个模型，它代表着用物理球体来反应真实的地球。

最常见的是用数学的方式来反映客观事物。因此，全球各国有一个注明的数学比赛，叫做数学建模大赛！用数学方法来拟合现实事件发生的一般规律。

统计模型也是一种数学的方式。比如，高尔顿的子代身高问题，我们想关心的是，子代身高到底受什么影响？我们能否预测它，能否用数学的方式预测它？此时，便需要构建数学模型。

高尔顿给出了最为经典，但有十分简单的方式，用一元一次，或者多元一次模型来构建子代身高的模型：

Y= 0.8567+0.516*X (单位为米);

回归模型或者回归函数是一类统计学分析最重要的模型，除了线性回归模型，还有不计其数的各种回归模型，典型还有logistic回归模型，Cox模型，Poisson模型等。本文以线性回归模型为例，来探讨模型结构。

▌线性回归模型定义

线性回归按变量数量的多少可以分为：简单线性回归和多重线性回归。简单线性回归，也就是有一个自变量，数学上表达为一元一次函数，其模型可以表示如下：

上述公式是基于样本得到的结果，b0和b1均为统计量，若该公式拓展到总体人群，则为

公式中参数解释如下：

x：自变量

ŷ：y的预测值

b0 、β0：截距

b1、β1：变量回归系数

其中，关键的指标即为b1和β1，他们称之为回归系数，反映的是x对y的影响力，是当x每改变一个观测单位时所引起y的改变量。

值得注意的是，这里x是真实的变量值x，而y带了一顶帽子，并非是y的真实值，而是成为y的预测值或者估计值。

实际上，世界上所有的x和y没有严格上一一对应的关系，通过x产生的预测值ŷ，是接近于y但不等于y。

y预测值与y直接的差值我们称之为残差。

残差反映了除了x和y之间的线性关系之外的随机因素对y的影响，是不能由x和y之间的线性关系所解释的变异性。

可以这么来理解ϵ：我们对y的预测是不可能达到与真实值完全一样的，这个真实值只有上天知道，因此必然会产生误差，我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态，也就是理论的回归模型。

残差ϵ就是没有被解释的部分，是剩下来的变异，是边角料。

再通俗来说，就是x和y完美的关系是不存在的，通过x只能差不多预测y。真实和模型总是有点差别，有些差别大，有些差别小。就如，现在的美女们，照片的美女和实际真人残差很大，很以前的美女，照片和真实简直一摸一样，残差小。以前的照片，残差是粉底；现在的照片，残差都是手机惹的祸，你想要怎么美都行！

结合残差，真实的y和x关系如下：

同样的，多个自变量存在的情况下，多重线性回归模型的表示如下：

其中，bk、、βk：回归系数，在多重线性回归中，被称之为偏回归系数，表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似，反映的是x对y的影响力，是当x每改变一个观测单位时所引起y的改变量。

一个回归模型，必然有残差，成功的模型必然也有相应的变量来解释y的变异，但是残差可大可小。一般来说，建立回归模型时，总希望残差尽可能小。残差越小，往往意味着更多的y的变异被解释掉了，预测模型更加真实，即Y预测值更接近于Y真实值。

这一“残差越小越好”的思维被运用回归分析中，便成为了回归建模的基本原则，最小二乘原则。

案例分析

例1：现有15例糖尿病患者，测得每位患者的胰岛素和血糖水平。问题，构建回归模型，探讨糖尿病患者胰岛素和血糖水平关系？数据详见lincorr.sav

1

案情分析

本案例为现况调查的数据，要探讨胰岛素和血糖的关系，两者均为定量变量资料。

2

统计分析策略

对于能否采用回归分析，采用什么样的回归分析，医学研究一般来说最重要的前提是3个，自变量x和应变量y理论上有没有因果关系、结局y的资料类型，以及x、y是否存在着线性关系。当然，回归分析必须满足更多的条件，我讲在后续介绍。这里先做个基本的探讨。

自变量x和应变量y理论上有没有因果关系。这是最重要的条件，决定着能否开展回归。回归分析必须要求两个变量必须有因果关系，才能探讨原因变量对结局变量单向影响关系以及影响程度。

结局y的资料类型。结局变量是定量还是定性还是等级，采用的回归方法不同，定量资料可以采用线性回归，而分类资料可以采用logistic回归等，此外，更复杂的结局意味着更复杂的统计模型。

x、y是否存在着线性关系。回归模型是多元一次方程，x与y直接必须有线性趋势，否则无法直接构建回归模型，得需要通过对x或者y的转换，直至回归分析自变量和因变量线性关系成立。

上述两个案例三个条件都满足。

对于案例1，探讨的是定量变量（胰岛素）与定量变量（血糖）的关系。对此，上文其实已经探讨过（直线相关 VS 秩相关：我们该选择哪一种相关分析方法），可以采用线性相关分析来探讨两个变量的关系。而简单线性回归分析也可以探讨两者之间的关系，其P值一致，差异在于线性回归分析侧重于影响程度，而相关分析侧重于相关性大小。

相关分析方法SPSS操作

1

线性回归分析入口

线性回归分析SPSS分析入口：分析-回归-线性

2

线性回归主界面

我以案例为例，介绍线性回归主界面。

①血糖是结果变量，放入因变量

②胰岛素是原因变量，放入自变量

③选项可以计算预测值和残差

33

简单线性回归分析的结果

案例的分析结果：

对于本结果，

①是回归系数b值

②是回归系数的抽样误差，即标准误

③Beta值，其实很多人不太理解，它是标准化b值，标准化回归系数。可以用来比较各个自变量x对y的影响程度的。本例是单因素回归，无法比较，我们将在多因素回归进行进一步介绍。

④t值，是各个回归系数进行假设检验的检验统计量，线性回归检验统计量为t值。

⑤显著性：即P值。P<0.05说明自变量与因变量回归关系成立，有关系，有影响。

本例结果显示，胰岛素对血糖的影响的存在着统计学差异（b=-0.415，P<0.001）。

我们也可以通过下表来看预测值和残差结果（残差均数为零，标准化残差即残差通过z转换变成z值，则其均数为0，标准差为1）。

在数据库中，可以发现增加了PRE_1（预测值）和RES_1(残差) ，两组相加，刚好是“血糖值”。

最终得到回归分析方程如下：

血糖=16.852-0.415×胰岛素

这意味着，胰岛素每增加1个单位，血糖将降低0.415个单位。

上述就是线性回归最基本的SPSS教程，更多的操作，更多的结果解读（比如R值，ANOVA分析），请关注后续若干篇文章。

注意事项

1. 单因素回归分析与诸多基本统计学方法结果一致

基本统计学方法包括t、F、卡方、秩和、相关分析。他们都是在探讨相关性，简单线性回归，当只有一个自变量时，其结果与t检验、线性相关分析一致。

对于本文胰岛素和血糖案例，若采用相关分析，则P<0.001与简单线性回归分析结果一样，只不过相关分析给予的是相关系数。

又比如，系列文章的案例：

将出生28天的20只大鼠有些喂养高蛋白和低蛋白饲料，8周后观察其体重（g）。

133，145，112，138，99，157，126，121，139，106，115，118，75，106，87，94，110，102，124，130

比较两种饲料体重是否一致，可以采用t检验。结果如下，两组总体体重总体均数存在着统计差异（t=2.67，P=0.016）

由于结局变量为定量数据，也可以采用线性回归分析，若本例采用简单线性回归分析，t=2.67，P值也等于0.016。结果与t检验一致。

单因素回归分析属于高级统计学方法，但它和t检验、F检验、秩和、相关分析都属于简单关联性研究方法。

2. 单因素回归分析在观察性研究中，不足以探讨因果关系

观察性研究，简单线性回归分析虽然可以探讨原因变量对结局变量的影响及影响程度，但其结果仍无法说明自变量对因变量是否有真正的因果关系，因为观察性就变量的关系受到诸多干扰因素影响，如同t、F、相关分析，简单线性回归也是关联性的分析方法，但不是因果关联性的分析手段。合适的因果关联性分析方法，仍然要借助于多因素回归分析（多变量回归分析）。详细见下一讲。

3.线性回归分析要求的条件不少

本文提到了线性回归，要求变量之间应具有因果关系、定量数据、线性关系，数据不符合要求者，谨慎开展线性回归分析。除此之外，线性回归还要求正态性、独立性、方差齐性三个条件。我将在后续展开介绍。

-本讲结束-