朴素贝叶斯

贝叶斯决策论

贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法。

对分类任务来说，在所有相关概率都己知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。更确切来说，我们需要通过 先验概率 计算 后验概率，从而得到结果。

先验概率：根据以往经验和分析得到的概率。
后验概率：根据已经发生的事件来分析得到的概率，通常是条件概率的形式。
例：假设山洞中有熊出现的事件为 $Y$ ，山洞中传来一阵熊吼的事件为 $X$ 。则：
听到熊吼之后认为山洞中有熊的概率为 $P(Y\mid X)$ ，它是后验概率。

分类问题的决策

下面我们以多分类任务为例，详细解释贝叶斯决策论是如何利用先验概率求取后验概率的。

假设有 $n$ 种可能的类别标签 $\mathcal Y = \{C_1,C_2 ,… ,C_n\}$ ，设 $\lambda_{ij}$ 是将一个真实标记为 $C_j$ 的样本误分类为 $C_i$ 所产生的损失。
那么基于后验概率 $P(C_i\mid\mathbf x)$ 可获得将样本 $\mathbf x\in\cal X$ 分类为 $C_i$ 所产生的期望损失 (expected loss)，也被称作是在样本 $\bf x$ 上的“条件风险” (conditional risk) ：

$R(C_i\mid\mathbf x)=\sum_{j=1}^n\lambda_{ij}P(C_j\mid\mathbf x)$

我们的任务就是希望学习到一个判别准则 $h:\cal X\to Y$ 使得总体的期望风险最小化：

$\min_h\mathbb E_{\bf x}[R(h(\mathbf x)\mid \mathbf x)]$

而要使总体风险最小可以等价于条件风险最小，从而有贝叶斯最优分类器：

$h^*(\mathbf x)=\arg\min_{c\in\cal Y}R(c\mid\mathbf x)$

更进一步，如果取误判损失 $\lambda_{ij}=I(i\neq j)$ ，那么 $R(C_i\mid\mathbf x)=1-P(C_i\mid\mathbf x)$ ，于是就有：

$h^*(\mathbf x)=\arg\max_{c\in\cal Y}P(c\mid\mathbf x)$

也就是说，样本 $\bf x$ 被划分为哪一类，取决于它的后验概率哪一个最大。

当我们对后验概率直接建模，那么我们得到的就是判别式模型(discriminative models)。比如：决策树、神经网络、支持向量机等。
当我们对先验概率建模，然后再通过贝叶斯定理得到后验概率时，这样的模型就是生成式模型(generative models)。

频率主义学派与贝叶斯学派

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。所以实际上概率模型的训练过程就是参数估计(parameter estimation) 过程.

而对于参数估计，统计学界的两个学派分别提供了不同的解决方案：

频率主义学派(Frequentist) 认为参数虽然未知，但却是客观存在的固定值，因此，可通过优
化似然函数等准则来确定参数值；
贝叶斯学派(Bayesian) 认为参数是未观察到的随机变量，所以参数本身也有自己的概率分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

源自频率主义学派的极大似然估计(Maximum Likelihood Estimation，简称 MLE) ，就是一种根据数据采样来估计概率分布参数的经典方法。

需要注意的是，这种参数化的方法虽能使类条件概率估计变得相对简单，但是估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，欲做出能较好地接近潜在真实分布的假设往往需在一定程度上利用关于应用任务本身的经验知识，否则若仅凭"猜测"来假设概率分布形式，很可能产生误导性的结果。

当我们使用生成式模型时，即利用贝叶斯公式计算后验概率时，有：

$P(C_k|\mathbf x) = \frac{P(\mathbf x|C_k)P(C_k)}{P(\mathbf x)}=\frac{P(\mathbf x|C_k)P(C_k)}{\sum\limits_{i=1}^nP(\mathbf x|C_i)P(C_i)}$

朴素贝叶斯分类器(naive Bayes classifier) 采用了
“属性条件独立性假设” (attribute conditional ependence assumption)：
对已知类别，假设所有属性均相互独立。换言之，假设每个属性独立地对分类结果产
生影响。从而上式可以重写如下：

$P(C_k|\mathbf x)=\frac{P(C_k)}{\sum\limits_{i=1}^nP(\mathbf x|C_i)P(C_i)}\prod_{j=1}^dP(x_j|C_k)$

其中， $x_j\in\mathbf x$ 是样本的第 $j$ 个维度的特征数值。

由于对于给定的所有训练集来说， $P(\mathbf x)=\sum\limits_{i=1}^nP(\mathbf x|C_i)P(C_i)$ 是恒定的。因此朴素贝叶斯分类器的求取如下：

$h_{nb}(\mathbf x)=\arg\max_{C_k\in\cal Y}\frac{P(\mathbf x|C_k)P(C_k)}{P(\mathbf x)}=\arg\max_{C_k\in\cal Y}P(C_k)\prod_{j=1}^dP(x_j|C_k)$

标签的概率 $P(C_k)$ 是好求的，我们只需要计算训练集中第 $k$ 个类别的占比即可。
而特征对标签的条件概率 $P(x_j|C_k)$ 则根据特征的数据类型不同而不同。

特征对标签的条件概率

样本中不同维度的特征 $x_j$ 对特定标签 $C_k$ 的先验概率（条件概率） $P(x_j|C_k)$ 一般都是通过对数据进行假设，然后利用极大似然估计方法进行参数估计，最后得出结果。

推荐博文👉朴素贝叶斯的参数估计和公式推导 - 不爱飞的鸟儿 - 博客园

下面我们仅给出结论。

离散属性

当特征/属性的类型是离散数据时，我们可以假设 $x_j$ 服从于多项式分布。这样一来，对于待测试的样本 $\mathbf x^{(\text{test})}$ ，其 $P(x_j|C_k)$ 的值就是在所有属于 $C_k$ 的训练样本中，属性值 $x_j=x_j^{\text{(test)}}$ 的频率。

连续属性

对于连续数据的特征/属性，我们假设 $x_j\sim\mathcal N(\mu_{k,j},\sigma^2_{k,j})$ ，表示类别为 $C_k$ 的训练样本中，属性值 $x_j=x_j^{\text{(test)}}$ 的概率服从于特定的正态分布：

$\begin{aligned} P(x_j=x_j^{(\text{test})}|C_k) = \frac{1}{\sqrt{2\pi\sigma_{k,j}^2}}\exp\left(-\frac{(x_j^{(\text{test})} - \mu_{k,j})^2}{2\sigma_{k,j}^2}\right) \end{aligned}$

拉普拉斯平滑

零概率问题：在计算离散属性的概率时，如果它在训练样本集中没有出现过，会导致该离散属性的概率结果为 0。这是不合理的，“不能因为一个事件没有观察到，就被认为该事件一定不可能发生”。

为了解决这个问题，法国数学家 拉普拉斯 最早提出用 加1 法来估计没有出现过的现象的概率。他指出，当训练样本足够大时，每个离散属性 $x_j$ 的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题。

于是，这个方法也被叫做加法平滑/拉普拉斯平滑(Additive/Laplace Smoothing)。具体如下：

$P(x_j=x_j^{(\text{test})}|C_k) = \frac{m_{k,j}+\lambda}{m_k+s_j\lambda}$

式中， $m_{k,j}$ 表示所有属于 $C_k$ 的训练样本中，属性值 $x_j=x_j^{\text{(test)}}$ 的频率； $m_k$ 表示属于 $C_k$ 的训练样本个数； $s_j$ 表示所有训练样本中，第 $j$ 个属性 $x_j$ 可以取的离散值的个数； $\lambda$ 为平滑参数。

当 $\lambda=0$ 时就是原始的极大似然估计；
当 $\lambda=1$ 时就是拉普拉斯平滑；
当 $\lambda\to\infty$ 时，由于计算出的所有似然函数都0.5，这将导致模型欠拟合，高偏差。

抗数据缺失性

Scikit-Learn实现

类	含义
`naive_bayes.BernoulliNB`	伯努利分布下的朴素贝叶斯
`naive_bayes.GaussianNB`	高斯分布下的朴素贝叶斯
`naive_bayes.MultinomialNB`	多项式分布下的朴素贝叶斯
`naive_bayes.ComplementNB`	补充朴素贝叶斯
`naive_bayes.CategoricalNB`	类别朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB,GaussianNB,BernoulliNB,ComplementNB,CategoricalNB

from sklearn.model_selection import cross_val_score

nb1=GaussianNB()
nb2=MultinomialNB()
nb3=BernoulliNB()
nb4=ComplementNB()
nb5=CategoricalNB(alpha=1)

for model in [nb1,nb2,nb3,nb4,nb5]:
    scores=cross_val_score(model,X,y,cv=10,scoring='accuracy')
    print("Accuracy:{:.4f}".format(scores.mean()))