嘘~ 正在从服务器偷取页面 . . .

机器学习2:朴素贝叶斯


一、贝叶斯决策论

  • 贝叶斯决策论(Bayesian decision theory)是采用概率方法进行决策的基本方法。

  • 首先,使用主观概率,对未知状态进行概率估计

  • 然后,采用贝叶斯公式做概率上的修正
  • 最后,利用计算得到的期望概率值与修正后得到的概率做出最后的决策

  • 贝叶斯方法的综合判别能力很强

二、朴素贝叶斯法概述

  • 朴素贝叶斯法(Naive Bayes)
      -基于贝叶斯定理与特征条件独立假设的分类方法。
  • 核心思想
      - 对于给定的训练数据集
       - 首先,基于特征条件独立假设学习输入/输出的联合概率分布
             - 然后,基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
                         - y即为对应的类别
  • 朴素贝叶斯算法,常用作自然语言处理的文本分类任务。

1、朴素贝叶斯法的前导知识

  • 先验概率
  • 条件概率
  • 全概率公式
  • 后验概率

2、朴素贝叶斯的算法流程

  • 朴素贝叶斯算法总共有三步:

     - 计算先验概率

    • 统计样本集中样本总量$|D|$
    • 求出类别的可取值的个数$K$
    • 对每个类别统计样本数量$|y_k|$
    • 计算出所有的频率,并用频率逼近概率:$P(y_k)$
      • 计算条件概率
    • 将样本集划分成$K$个子样本集,记作$D_k$
    • 分别对每个样本子集进行计算
    • 统计该子集中每个属性a的取值为$I$的样本的数量,记作$|a_{jI}|$
    • 于是,可得$P(a{jI}|y_k)=\frac{|a{jI}|}{|D_k|}$
      • 预测
    • 针对待预测样本t,计算其对于每个类别y的后验概率
    • 计算结果概率值最大的类别即为待预测样本的预测类别

3、朴素贝叶斯算法的优缺点分析

  • 优点:

    • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
    • 对小规模的数据表现很好
    • 对缺失数据不太敏感
  • 缺点:

  • 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率
  • 需要知道先验概率
  • 各个属性间是独立的,这个前提假设太强

文章作者: Jeremy Yang
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jeremy Yang !
  目录