机器学习 - 手撕朴素贝叶斯

2019-10-20

朴素贝叶斯是经典的机器学习算法之一, 也是为数不多的基于概率论的分类算法. 朴素贝叶斯原理简单, 也很容易实现.
>>

贝叶斯公式

$P(A|B) = \frac {P(B|A)P(A)}{P(B)} \tag{1}$

意思就是, 给定B事件(就是B时间发生)下A事件发生的概率, 等于给定A时B的概率乘以A的概率除以B的概率. \\
其中$P(B|A)P(A)$也可以写做$P(A \cap B)$, 前者是后者变形得到的.
再来看看全概率, 全概率就是如果事件$A_1, A_2, …, A_n$独立同分布, 那么对于任意一个事件B:

$P(B) = P(BA_1) + P(BA_2) + ... + P(BA_n)\\ =P(B|A_1)P(A_1) + ... + P(B|A_n)P(A_n)\\ =\sum_{i=1}^n P(A_i)P(B|A_i) \tag{2}$

这就是全概率的公式.

推断

P(A) 称为先验概率
P(A|B)称为后验概率
P(B|A)P(A)/P(B)称为调整因子, 目的是调整预估概率去接近真实概率

$条件概率=先验概率*调整因子$

MNIST

手写数据集, 具体不多说了, 反正每个样本图片大小为$28×28pix$, 展开就是784维, 就意味着一个样本, 它的特征维度是784.
数据集中每张图片的的每个像素采用灰度值, 我们为了方便下面处理将它变成二值图像. 即将非0的点置为1。这样处理后, 我们可以认为一个像素是否为1变成一个0-1分布.
我们计算这样一个概率值:

$P(这个样本属于第j个类别的概率)=\\ \prod_{k=1}^{28×28} P(这个样本属于第j类的概率|样本的第k个像素) \tag{3}$

令$D={x^{(i)},y^{(i)}},i=1…n$ 表示数据集. $x^{(i)}$ 为一个28维的向量表示第i个样本, $y^{(i)}$ 为标注的类别, 取值范围为$0…9$, 表示该样本从属的分类. 上面的公式3可以写为:

$P(y^{(i)}=j|x^{(i)})=∏_k P(y^{(i)} =j|x^{(i)}_k) \tag{4}$

求解目标:

$f=\arg\max_j P(y^{(i)}=j|x^{(i)}) \tag{5}$

简单来说就是计算 $P(y^{(i)}=0|x^{(i)}) P(y^{(i)}=1|x^{(i)})… P(y^{(i)}=9|x^{(i)})$ , 从中找到一个最大的, 如果从属于第$j$个类的概率最大, 那么就认为这张图片从属于j这个类.
那么下面的任务就是要求解$p(y^{(i)}=j|x^{(i)})$,利用公式4, 可以将任务转变为求每个像素点的相应后验概率： $p(y^{(i)}=j|x^{(i)}_k)$ ,根据贝叶斯公式

$P(y^{(i)}=j|x^{(i)}_k) = \frac {P(x^{(i)}_k|y^{(i)}=j)P(y^{(i)}=j)}{P(x^{(i)}_k)} \tag{6}$

简单看一下这个公式. 如果从属于第0类的图片在像素20上是1 个概率较高/ 那么如果发现像素20为1. 则属于第0类的概率较高/ 在看分母. 如果对于所有图片. 在像素20上的1概率较高. 说明这个像素对于分类的区分能力低. 所以分母这个概率越高. 则总的概率越低.
第$i$个样本第$k$个像素为1的概率, 通过统计所有样本可以知道:

$P(x_k = 1) = \frac {图片中第k像素为1的个数}{所有图片个数,即n}\\ P(y=j)= \frac {属于j类的图像数}{所有图片个数，即n}\\ P(x_k=1|y=j)= \frac {属于j类的图像中像素k为1的数量}{属于j类的图像的个数}$

根据0-1分布

$P(x^{(i)}_k|y^{(i)}=j)=P(x_k=1|y=j)^{x^{(i)}_k}(1−P(x_k=1|y=j))^{1−x^{(i)}_k}\\ P(x^{(i)}_k)=P(x^{(i)}=1)^{x(i)}(1−P(x^{(i)}=1))^{1−x^{(i)}}$

取对数

$\log P(x^{(i)}_k)=x^{(i)}\log P(x^{(i)}=1)+(1−x^{(i)})\log (1−P(x^{(i)}=1))$

到这就完事了, 得到条件概率的log, 那么全部总结起来:

$\log P(y^{(i)}=j|x^{(i)}) = \log ∏_k P(y^{(i)}=j|x^{(i)}_k)\\ =∑_k \log P(y^{(i)}=j|x^{(i)}_k)\\ =∑_k x^{(i)}_k \log P(x_k=1|y=j) + (1−x^{(i)}_k) \log (1−P(x_k=1|y=j))\\ + \log P(y^{(i)}=j) − \log P(x^{(i)}_k)$

在这里插入图片描述