Skip to main content

算法公式汇总

Tf-idf文本特征提取

tfidf_i,_j = tf_i,_j * idf_i

归一化公式

X' = \frac{x-min}{max-min}    
X''= X'(mx-mi)+mi

作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0

标准化

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

公式
X' = \frac{x-mean}{\sigma}    

作用于每一列,mean为平均值,σ为标准差

  • 对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变
  • 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

相关系数

  • 皮尔逊相关系数(Pearson Correlation Coefficient)
    • 反映变量之间相关关系密切程度的统计指标
公式计算案例
r = \frac{n\sum_{xy} - \sum_x - \sum_y} {\sqrt{n \sum _{x^2} - (\sum_x)^2}  \sqrt{n \sum _{y^2} - (\sum_y)^2}  }    
特点

相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关
  • 当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系
  • 当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
  • 一般可按三级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关

    这个符号:|r|为r的绝对值, |-5| = 5


贝叶斯公式

P(C|W) = \frac {P(W|C)P(C)} {P(W)}

公式分为三个部分:

  • P(C):每个文档类别的概率(某文档类别数/总文档数量)
  • P(W│C):给定类别下特征(被预测文档中出现的词)的概率
  • 计算方法:P(F1│C)=Ni/N (训练文档中去计算)
  • Ni为该F1词在C类别所有文档中出现的次数
  • N为所属类别C下的文档所有词出现的次数和
  • P(F1,F2,…) 预测文档中每个词的概率

拉普拉斯平滑系数

目的:防止计算出的分类概率为0

P(F1|C) = \frac {Ni+\alpha} {N+\alpha m}

信息熵

信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中信息混乱的现象。

信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低; 反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

H的专业术语称之为信息熵,单位为比特

H(X) = - \sum_{i=1}^n P(x_i)logP(x_i)

信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:

g(D,A) = - H(D) -H(D|A)

线性回归

h(w) = w_1x_1 + w_2x_2 + w_3x_3... + b = w^Tx +b   

正规方程
w = (X^T X) ^{-1}X^Ty

理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果
缺点:当特征过多过复杂时,求解速度太慢并且得不到结果

梯度下降 (Gradient Descent)
w1 := w1 -  \alpha \frac{\delta cost(w0+w1x1) }{\delta w1}
w0 := w0 -  \alpha \frac{\delta cost(w0+w1x1) }{\delta w1}

理解:α为学习速率,需要手动指定(超参数),α旁边的整体表示方向
沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新W值

使用:面对训练数据规模十分庞大的任务 ,能够找到较好的结果

激活函数 sigmoid函数
g(\theta ^T x) = \frac {1}{1+e^{\theta ^T x}}

损失以及优化

损失

逻辑回归的损失,称之为对数似然损失,公式如下:

cost(h_\theta(x),y) = \left\{
\begin{array}{lr}
-log(\theta(x)) & if y=1 \\
-log(1-h_\theta(x)) & if y=0
\end{array}
\right.

综合完整损失函数

cost(h_\theta(x),y) = \sum_{i=1} {^m} - y_ilog(h_\theta(x)) -(1-y_i)log(1-h_\theta(x))

L2 正则化

J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n w_j^2