算法公式汇总
Tf-idf文本特征提取
tfidf_i,_j = tf_i,_j * idf_i
归一化公式
X' = \frac{x-min}{max-min}
X''= X'(mx-mi)+mi
作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0
标准化
通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
公式
X' = \frac{x-mean}{\sigma}
作用于每一列,mean为平均值,σ为标准差
- 对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变
- 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。
相关系数
- 皮尔逊相关系数(Pearson Correlation Coefficient)
- 反映变量之间相关关系密切程度的统计指标
公式计算案例
r = \frac{n\sum_{xy} - \sum_x - \sum_y} {\sqrt{n \sum _{x^2} - (\sum_x)^2} \sqrt{n \sum _{y^2} - (\sum_y)^2} }
特点
相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:
- 当r>0时,表示两变量正相关,r<0时,两变量为负相关
- 当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系
- 当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
- 一般可按三级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关
这个符号:|r|为r的绝对值, |-5| = 5
贝叶斯公式
P(C|W) = \frac {P(W|C)P(C)} {P(W)}
公式分为三个部分:
- P(C):每个文档类别的概率(某文档类别数/总文档数量)
- P(W│C):给定类别下特征(被预测文档中出现的词)的概率
- 计算方法:P(F1│C)=Ni/N (训练文档中去计算)
- Ni为该F1词在C类别所有文档中出现的次数
- N为所属类别C下的文档所有词出现的次数和
- P(F1,F2,…) 预测文档中每个词的概率
拉普拉斯平滑系数
目的:防止计算出的分类概率为0
P(F1|C) = \frac {Ni+\alpha} {N+\alpha m}
信息熵
信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中信息混乱的现象。
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低; 反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。
H的专业术语称之为信息熵,单位为比特
H(X) = - \sum_{i=1}^n P(x_i)logP(x_i)
信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
g(D,A) = - H(D) -H(D|A)
线性回归
h(w) = w_1x_1 + w_2x_2 + w_3x_3... + b = w^Tx +b
正规方程
w = (X^T X) ^{-1}X^Ty
理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果
缺点:当特征过多过复杂时,求解速度太慢并且得不到结果
梯度下降 (Gradient Descent)
w1 := w1 - \alpha \frac{\delta cost(w0+w1x1) }{\delta w1}
w0 := w0 - \alpha \frac{\delta cost(w0+w1x1) }{\delta w1}
理解:α为学习速率,需要手动指定(超参数),α旁边的整体表示方向
沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新W值使用:面对训练数据规模十分庞大的任务 ,能够找到较好的结果
激活函数 sigmoid函数
g(\theta ^T x) = \frac {1}{1+e^{\theta ^T x}}
损失以及优化
损失
逻辑回归的损失,称之为对数似然损失,公式如下:
cost(h_\theta(x),y) = \left\{
\begin{array}{lr}
-log(\theta(x)) & if y=1 \\
-log(1-h_\theta(x)) & if y=0
\end{array}
\right.
综合完整损失函数
cost(h_\theta(x),y) = \sum_{i=1} {^m} - y_ilog(h_\theta(x)) -(1-y_i)log(1-h_\theta(x))
L2 正则化
J(w) = \frac {1}{2m} \sum_{i=1}^m(hw(x_i)-y_i)^2 + λ\sum_{j=1}^n w_j^2