【skLearn 回归模型】多重共线性

网友投稿 302 2022-08-25

【skLearn 回归模型】多重共线性

文章目录

​​多重共线性​​

​​• 逆矩阵存在的充分必要条件​​​​• 行列式不为0的充分必要条件​​

​​行列式的计算​​

​​• 矩阵满秩的充分必要条件​​

​​精确相关关系​​​​高度相关关系​​​​总结:多重共线性​​

​​多重共线性与相关性​​

多重共线性

• 逆矩阵存在的充分必要条件

分子上​​A*是伴随矩阵​​,任何矩阵都可以有伴随矩阵,因此这一部分不影响逆矩阵的存在性。而分母上的行列式A就不同了,位于分母的变量不能为0,一旦为0则无法计算出逆矩阵。因此逆矩阵存在的充分必要条件是:矩阵的行列式不能为0,对于线性回归而言,即是说X^TX不能为0。最小二乘法推导式:

这也是使用最小二乘法来求解线性回归的核心条件之一。

​​返回顶部​​

• 行列式不为0的充分必要条件

行列式的计算

​​返回顶部​​

• 矩阵满秩的充分必要条件

如此就转换成了梯形矩阵。我们可以看到矩阵A明显不是满秩的,它有全零行所以行列式会为0而矩阵B和C没有全零行所以满秩。而矩阵A和矩阵B的区别在于,​​A中存在着完全具有线性关系的两行(1,1,2和2,2,4)​​,而B和C中则没有这样的两行。而矩阵B虽然对角线上每个元素都不为0,但具有非常接近于0的元素0.02,而矩阵C的对角线上没有任何元素特别接近于0。

精确相关关系

矩阵A中第一行和第三行的关系,被称为​​"精确相关关系”,即完全相关,一行可使另一行为0​​。在​​这种精确相关关系下,矩阵A的行列式为0,则矩阵A的逆不可能存在​​。在我们的最小二乘法中,如果矩阵X中存在这种精确相关关系,则逆不存在,最小二乘法完全无法使用,线性回归会无法求出结果,这样求解出来的参数向量会很大,因此会影响建模的结果,造成模型有偏差或者不可用。

高度相关关系

矩阵B中第一行和第三行的关系不太一样,他们之间非常​​接近于"精确相关关系”,但又不是完全相关,一行不能使另一行为0,这种关系被称为高度相关关系​​。在​​这种高度相关关系下,矩阵的行列式不为0,但是一个非常接近0数,矩阵A的逆存在,不过接近于无限大​​。在这种情况下,最小二乘法可以使用,不过得到的逆会很大,直接影响我们对参数向量w的求解:

相对的,矩阵C中的行之间结果相互独立,梯形矩阵看起来非常正常,它的对角线上没有任何元素特别接近于0,因此其行列式也就不会接近0或者为0,因此矩阵C得出的参数向量w就不会有太大偏差,对于我们拟合而言是比较理想的。

总结:多重共线性

​​精确相关关系​​和​​高度相关关系​​并称为​​多重共线性"​​,在多重共线性下,模型无法建立,或者模型不可用。

从上面的所有过程我们可以看得出来,一个矩阵如果要满秩,要求矩阵中每个向量之间不能存在多重共线性,这也构成了线性回归算法对于特征矩阵的要求。

​​返回顶部​​

多重共线性与相关性

多重共线性如果存在,则线性回归就无法使用最小二乘法来进行求解,或者求解就会出现偏差。幸运的是,​​不能存在多重共线性,不代表不能存在相关性​​----机器学习不要求特征之间必须独立,必须不相关,只要不是高度相关或者精确相关就好==。

在现实中特征之间完全独立的情况其实非常少,因为大部分数据统计手段或者收集者并不考虑统计学或者机器学习建模时的需求,现实数据多多少少都会存在一些相关性,极端情况下,甚至还可能出现收集的特征数量比样本数量多的情况。通常来说,这些相关性在机器学习中通常无伤大雅(在统计学中他们可能是比较严重的问题),即便有一些偏差,只要最小二乘法能够求解,我们都有可能会无视掉它。毕竟,想要消除特征的相关性,无论使用怎样的手段,都无法避免进行特征选择,这意味着可用的信息变得更加少,对于机器学习来说,很有可能尽量排除相关性后,模型的整体效果会受到巨大的打击。这种情况下,我们选择不处理相关性,只要结果好,一切万事大吉。然而多重共线性就不是这样一回事了,它的存在会造成模型极大地偏移,无法模拟数据的全貌,因此这是必须解决的问题。为了保留线性模型计算快速,理解容易的优点,我们并不希望更换成非线性模型,这促使统计学家和机器学习研究者们钻研出了多种能够处理多重共线性的方法,其中有三种比较常见的:

第一种相对耗时耗力,需要较多的人工操作,并且会需要混合各种统计学中的知识和检验来进行使用。在机器学习中,能够使用一种模型解决的问题,我们尽量不用多个模型来解决,如果能够追求结果,我们会尽量避免进行一系列检验况且,统计学中的检验往往以“让特征独立为目标,与机器学习中的“稍微有点相关性也无妨“不太一致。第二种手段在现实中应用较多,不过由于理论复杂,效果也不是非常高效,因此向前逐步回归不是机器学习的首选。我们的核心会是使用第三种方法:改进线性回归来处理多重共线性。为此,一系列算法,岭回归, Lasso,弹性网就被研究出来了。

​​返回顶部​​

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:茅台:营销变革不断,不提出厂价也能继续“飞”!(茅台打破一瓶的营销)
下一篇:【Jquery 课堂笔记01】使用jquery获取标签内容
相关文章

 发表评论

暂时没有评论,来抢沙发吧~