贝叶斯公式
意思就是, 给定B事件(就是B时间发生)下A事件发生的概率, 等于给定A时B的概率乘以A的概率除以B的概率. \\
其中$P(B|A)P(A)$也可以写做$P(A \cap B)$, 前者是后者变形得到的.
再来看看全概率, 全概率就是如果事件$A_1, A_2, …, A_n$独立同分布, 那么对于任意一个事件B:
这就是全概率的公式.
推断
- P(A) 称为先验概率
- P(A|B)称为后验概率
- P(B|A)P(A)/P(B)称为调整因子, 目的是调整预估概率去接近真实概率
MNIST
手写数据集, 具体不多说了, 反正每个样本图片大小为$28×28pix$, 展开就是784维, 就意味着一个样本, 它的特征维度是784.
数据集中每张图片的的每个像素采用灰度值, 我们为了方便下面处理将它变成二值图像. 即将非0的点置为1。这样处理后, 我们可以认为一个像素是否为1变成一个0-1分布.
我们计算这样一个概率值:
令$D={x^{(i)},y^{(i)}},i=1…n$ 表示数据集. $x^{(i)}$ 为一个28维的向量表示第i个样本, $y^{(i)}$ 为标注的类别, 取值范围为$0…9$, 表示该样本从属的分类. 上面的公式3可以写为:
求解目标:
简单来说就是计算 $P(y^{(i)}=0|x^{(i)}) P(y^{(i)}=1|x^{(i)})… P(y^{(i)}=9|x^{(i)})$ , 从中找到一个最大的, 如果从属于第$j$个类的概率最大, 那么就认为这张图片从属于j这个类.
那么下面的任务就是要求解$p(y^{(i)}=j|x^{(i)})$,利用公式4, 可以将任务转变为求每个像素点的相应后验概率: $p(y^{(i)}=j|x^{(i)}_k)$ ,根据贝叶斯公式
简单看一下这个公式. 如果从属于第0类的图片在像素20上是1 个概率较高/ 那么如果发现像素20为1. 则属于第0类的概率较高/ 在看分母. 如果对于所有图片. 在像素20上的1概率较高. 说明这个像素对于分类的区分能力低. 所以分母这个概率越高. 则总的概率越低.
第$i$个样本第$k$个像素为1的概率, 通过统计所有样本可以知道:
根据0-1分布
取对数
到这就完事了, 得到条件概率的log, 那么全部总结起来: