Skip to main content

欠拟合与过拟合

过拟合

一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合

一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

原因以及解决办法

欠拟合原因以及解决办法

  • 原因:学习到数据的特征过少
  • 解决办法:增加数据的特征数量

过拟合原因以及解决办法

  • 原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
  • 解决办法:正则化

正则化类别

L1正则化(LASSO回归)

  • 作用:可以使得其中一些W的值直接为0,删除这个特征的影响
  • 损失函数 + |λ惩罚项|
J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n |w_j|

L2正则化(Ridge回归-岭回归)

  • 作用:可以使得其中一些W的值很小,值接近于0,削弱某个特征的影响
  • 优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象
  • 损失函数 + (λ惩罚项)^2
J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n w_j^2