关键词学习——《正则化》

网友投稿 259 2022-09-20

关键词学习——《正则化》

从此不迷路

计算机视觉研究院

学习群|扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

后期,我们会陆续出一些深度学习领域的关键词学习专栏!今天我们就好好的说下正则化。

前言

监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。

一般来说,监督学习可以看做最小化下面的目标函数:

(正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项)

第一项是衡量模型预测与实际的误差,因为要拟合训练样本,所以要求这一项最小,也就是要求模型尽量的拟合训练数据。但不仅要保证训练误差最小,更希望模型测试误差小,所以需要加上第二项去约束模型尽量的简单。

机器学习的大部分带参模型都和这个型很相似。其实大部分就是变换这两项。对于第一项Loss函数,如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是Exp-Loss,那就是 Boosting了;如果是log-Loss,那就是Logistic Regression了,等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。

L0范数

L0范数是指向量中非0的元素的个数。如果用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀疏的。

但是一般稀疏都会想到L1范数,所以我来讲讲L1范数。

L1范数

L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso Regularization)。

L1范数会使权值稀疏?

既然L0可以实现稀疏,为什么不用L0,而要用L1呢?

原因:一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。

L2范数

为什么L2范数可以防止过拟合?

而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?原因:限制参数很小,实际上就限制了多项式某些分量的影响很小,这样就相当于减少参数个数。

总结

通过L2范数,可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。

© The Ending

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:FP-DETR:通过完全预训练提升transformer目标检测器
下一篇:猿大侠:B站,又出了一个大料!
相关文章

 发表评论

暂时没有评论,来抢沙发吧~