上次我们说到,一对儿男女朋友经过相关性检验,发现相关性如此之好,达到了0.9后面还跟了好几个9。数据告诉他俩,天生一对啊,强正相关啊!好吧,结婚,生娃! 520来了,一顿放炮庆祝,热闹。 很快,娃要来了。预测下娃是大头还是小头,嗯,爸爸是小头,那儿子的头应该是--- 回归一下就知道。 今天我们说说简单线性回归。 直线回归:是分析两个变量间数量依存关系的统计分析方法。如果一个变量随另一个变量的变化而变化,并且他们的变化呈直线趋势,就可以用直线回归方程来定量地描述他们之间的数量依存关系,这就是直线回归分析。 相关关系是分析两个变量间的相互关系,回归分析用于分析一个变量对另一个变量的依赖关系。 直线回归,简单说数学模型就是一元一次方程,初中知识。自变量就是X,应变量(因变量)就是Y。其实说到这里就没啥多说的啦,毕竟这点数学知识大家都是有的。 这里面需要多说的一点是:一般是Y是正态总体的随机变量,X可以精确测量,就是由老子估计儿子,这就是Ⅰ型回归。如果X也服从正态分布,就是X和Y 可以互相估计,那就是Ⅱ型回归。 由老子直接估计儿子头大小的叫简单线性回归,要是加上老妈的头大小,共同估计(多个自变量)就是多重线性回归。 由老子的头做出回归直线,计算儿子的头大小。儿子出生后,实际头大小和计算值不一样,那么计算值和实际测量值之间的差距就是残差。残差太大,就变成了离群值,需要找原因,是不是病了,或者研究一下隔壁老王。 那啥叫残差过大呢?因为你估计的儿子头大小是有置信区间的,也就是说有一个上下限,一般我们去95%的置信区间。超过这个区间了,就是出问题的可能性太大了。 直线回归的应用条件:LINE 1、线性(linear),两变量的变化关系呈直线趋势; 2、独立性(Independence),每个个体观察值之间相互独立; 3、正态性(Normal distribution)应变量Y属于正态随机变量; 4、等方差性(Equal variance)Ⅰ型回归要每个选定的X Y都有一个正态分布总体,并且方差相等。Ⅱ型回归要求X Y服从双变量正态分布。 直线回归方程 β的统计学意义是X每变化一个单位,Y平均改变 β 个单位。且: 在这里输入你的内容,注意不要用退格键把所有文字删除,请保留一个或者用鼠标选取后直接输入,防止格式错乱。 β>0 , 同向线性变化 Β<0 ,="">0> Β=0 , 无线性关系,但是不代表没关系 回归方程有统计学意义吗? 在这里输入你的内容,注意不要用退格键把所有文字删除,请保留一个或者用鼠标选取后直接输入,防止格式错乱。 因为抽样误差的原因,可能没有关系的两个数字计算出了有关系,为了不误解隔壁老王,我们需要检验,这里是假设检验,可不是DNA检验啊。 假设检验两个方面: 1 回归模型是否成立:方差分析 2 总体回归系数是否为零:t检验 这两个方面在咱们医研云(1rcloud.net)里面,计算回归的时候就一起给出了,不用特别计算。 应用直线回归的注意事项: 1 直线回归要有实际意义。就是说自变量X的取值不能随便外延,要有道理。一般来说X与Y之间有因果关系,并且X取值范围应在合理范围,不能随便扩大。大头儿子头再大也不能比猪头大。 2 注意随机性。 3 一般现做散点图,不满足线性条件就不要回归。 4 对离群值要反复核查,找到原因,以便修正或剔除。不是你的儿子不要随便养,避免将来悲剧。 5 回归直线不能外延。自变量取值范围内的Y值称为内插,超过自变量取值范围的Y值叫外延。没有特殊情况不要外延。 结果报告: 在这里输入你的内容,注意不要用退格键把所有文字删除,请保留一个或者用鼠标选取后直接输入,防止格式错乱。 简单线性回归分析通常需要报告以下内容: 1 分析目的 2 拟合简单线性回归方程的估计方法 3 是否符合前提条件(LINE) 4 参数估计结果 5 模型的拟合优度及假设检验 6 对结果的专业解释 直线相关与回归的区别: 1 资料要求不同(自己回忆下)。 2 统计意义不同。相关是伴随关系,回归是因果关系。 3 分析目的不同。相关研究的是密切程度,回归是确定的定量关系。 |
|
来自: zuochachideng > 《医学统计学》