欠拟合与过拟合
过拟合
一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合
一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)
原因以及解决办法
欠拟合原因以及解决办法
- 原因:学习到数据的特征过少
- 解决办法:增加数据的特征数量
过拟合原因以及解决办法
- 原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
- 解决办法:正则化
正则化类别
L1正则化(LASSO回归)
- 作用:可以使得其中一些W的值直接为0,删除这个特征的影响
- 损失函数 + |λ惩罚项|
J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n |w_j|
L2正则化(Ridge回归-岭回归)
- 作用:可以使得其中一些W的值很小,值接近于0,削弱某个特征的影响
- 优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象
- 损失函数 + (λ惩罚项)^2
J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n w_j^2