c语言sscanf函数的用法是什么
259
2022-09-20
关键词学习——《正则化》
从此不迷路
计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
后期,我们会陆续出一些深度学习领域的关键词学习专栏!今天我们就好好的说下正则化。
前言
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。
一般来说,监督学习可以看做最小化下面的目标函数:
(正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项)
第一项是衡量模型预测与实际的误差,因为要拟合训练样本,所以要求这一项最小,也就是要求模型尽量的拟合训练数据。但不仅要保证训练误差最小,更希望模型测试误差小,所以需要加上第二项去约束模型尽量的简单。
机器学习的大部分带参模型都和这个型很相似。其实大部分就是变换这两项。对于第一项Loss函数,如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是Exp-Loss,那就是 Boosting了;如果是log-Loss,那就是Logistic Regression了,等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。
L0范数
L0范数是指向量中非0的元素的个数。如果用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀疏的。
但是一般稀疏都会想到L1范数,所以我来讲讲L1范数。
L1范数
L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso Regularization)。
L1范数会使权值稀疏?
既然L0可以实现稀疏,为什么不用L0,而要用L1呢?
原因:一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
L2范数
为什么L2范数可以防止过拟合?
而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?原因:限制参数很小,实际上就限制了多项式某些分量的影响很小,这样就相当于减少参数个数。
总结
通过L2范数,可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。
© The Ending
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~