配色: 字号:
最小二乘法原理
2022-09-20 | 阅:  转:  |  分享 
  
最小二乘法原理

一、原理

最小二乘法是根据最小二乘准则,利用样本数据估计回归方程的一种方法。

(一)残差



设是被解释变量的第次样本观测值,估计值。将与之间的偏差记作





称为第次样本观测值的残差。



是相应的第











次样本



(二)最小二乘准则

使全部样本观测值的残差平方和达到最小,即









来确定未知参数

(三)最小二乘估计量



未知参数



估计量的准则,称为最小二乘准则。







的最小二乘估计量



的计算公式为







最小二乘估计量的推导

设残差平方和

















其中







它是阶残差列向量。

为了得到最小二乘估计量,我们对上式进行极小化







移项后,得正规方程组









根据基本假定5.,的最小二乘估计量



存在,用左乘正规方程组两边,得









(四)的无偏估计量

随机误差项的方差的无偏估计量为







称作回归估计的均方误差,而







称作回归估计的标准误差。



(五)的方差









其中,,于是每个的方差为

,而









是矩阵对角线

上对应的第个元素,。

(六)方差的估计量

方差的估计量为







则每个方差的估计量为



标准差的估计量为









二、拟合优度检验

拟合优度检验是样本回归方程对样本观测值拟合程度的检验。

(一)总离差平方和的分解公式







其中



—总离差平方和,









—回归平方和,



—残差平方和。

于是,可以将平方和的分解公式写成离差形式







(二)多元样本决定系数





1.多元样本决定系数

所谓多元样本决定系数决系数,是指被解释变量例,即







,也称多元样本判定系数或多元样本可

中的变异性能被样本回归方程解释的比







2.修正的样本决定系数







与有如下关系:







在样本容量一定的情形下,可以看出有性质:

(1),;

(2)可能出现负值。例如,,,时,显然负的拟合优度没有任何意义,在这种情形时,我们取

(三)三个平方和的计算公式





















于是有









因为,所以。作为度量回归值对样本观测值拟合优度的指标,显然的数值越大越好。的数值越接近于1,表示中的变异性能被估计的回归方程解释的部分越多,估计的回归方程对样本观测值就拟合的越好;反之,的数值越接近于0,表示中的变异性能被估计的回归方程解释的部分越少,估计的回归方程对样本观测值就拟合的越差。

三、F检验

检验是对回归方程总体显著性的检验,就是从总体上检验解释变量对被解释变量是否有显著影响的一种统计检验方法。

:;

:至少有一个不等于零。

检验的统计量











否定规则



如果检验的统计量

性水平下,被解释变量与解释变量线性关系;否则,不否定。这里







,则否定,即认为在显著

之间存在显著的是水平的分子自

由度为,分母自由度为的分布的上侧分位数。





四、t检验





检验是对线性回归模型的系数进行显著性检验,也就是说是检验模型的每个解释变量是否对被解释变量有影响显著的一种统计检验方法。



:,

检验的统计量







其中,是标准差的估计量,而是矩阵对角线上对应的第个元素,。

否定规则

如果或者,则否定,即认为在显著性水平下,第个解释变量对被解释变量存在显著的影响;否则,不否定。这里是水平的自由度为的分布的双侧分位数。

五、预测

多元线性回归分析的一个重要应用是利用样本回归方程进行预测。预测分为点预测和区间预测两种情形。

(一)点预测

点预测就是对于给定的解释变量的一组特定值







估计对应的被解释变量的值。

假设利用最小二乘法建立的样本回归方程为















其中



































将代入样本回归方程中,得







就是被解释变量的点预测值或点估计值。

(二)区间预测

在实际应用中,人们不仅关心被解释变量的估计值,而且希望

得到一个以相当大的概率包含真值的区间。这个区间就是数理统

计中的置信区间,我们称为预测区间或估计区间。

的置信度为预测区间为



其中,是预测误差标准差的估计量,

是回归估计标准误差,

是自由度为,水平为的分布的双侧分位数。

的置信度为预测区间的推导

对于给定的解释变量的一组特定值







根据多元线性回归模型,有







其中,。根据估计的样本回归模型,有















其中,



若将为







看作是的个别值的点估计值时,它们的预测误差记







因为







=

所以,是的个别值的无偏估计量。

接着我们考察的方差。因为与有关,而只与

有关,所以根据随机误差项彼此之间不相关的基本假定3.,与

也不相关。于是有

==

因为,=,所以

==

于是,方差的估计量为







因为和都服从正态分布,因此也服从正态分布,即









所以有











由于是未知的,我们用它的无偏估计量替,则由概率统计知识有

















对于预先给定的显著性水平,可从分布表中查出自由度为,水平为的双侧分位数,使









或者







于是有







最后,得的置信度为预测区间式







六、案例分析

例8.12我国1988–1998年的城镇居民人均全年耐用消费品支出、人均全年可支配收入和耐用消费品价格指数的统计资料如下表所示。







试建立城镇居民人均全年耐用消费品支出Y关于可支配收入X1和耐用消费品价格指数X2的回归模型,并进行回归分析。

表8.8我国1988–1998年间城镇居民人均全年耐用消费品支出、人均全年可支配收入和耐用消费品价格指数的统计资料







年份

人均耐用消费品

支出Y(元)

人均全年可支配

收入(元) 耐用消费品价格

指(1987年

=100) 1988



1989



1990



1991



1992



1993



1994



1995



1996



1997



1998 137.16

124.56



107.91



102.96



125.24



162.45



217.43



253.42



251.07



285.85



327.26 1181.4

1375.7



1510.2



1700.6



2026.6



2577.4



3496.2



4283.0



4838.9



5160.3



5425.1 115.96

133.35



128.21



124.85



122.49



129.86



139.52



140.44



139.12



133.35



126.39 资料来源:《中国统计年鉴》

解根据经济理论和对实际情况的分析可以知道,城镇居民人均全年耐用消费品支出Y依赖于可支配收入和耐用消费品价格指数的变化,因此我们设定回归模型为



















1.估计模型未知参数

由原始数据,计算得

,,

,,

,,

,,

将上述计算结果代入公式,得





















最后,得估计的回归方程







接着,计算残差平方和

=





















所以的无偏估计量为







从而得到回归估计标准误差为







2.经济意义检验

,表示城镇居民全年人均耐用消费品支出是随着可支配收入的增长而增加,并且介于0和1之间,因此该回归系数的符号、大小都与经济理论和人们的经验期望值相符合;,表示城镇居民全年人均耐用消费品支出随着耐用消费品价格指数的降低而增加,虽然我国在1988–1998年的短短几年间,耐用消费品价格指数经历了由高到低,又由低到高,再由高到低的激烈变化,但总的走势是呈下降态势,所以该回归系数的符号和大小也与经济理论和人们的经验期望值相一致。













































1



3



4







献花(0)
+1
(本文系shouhuyanya...原创)