一、贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是采用概率方法进行决策的基本方法。
首先,使用主观概率,对未知状态进行概率估计
- 然后,采用贝叶斯公式做概率上的修正
最后,利用计算得到的期望概率值与修正后得到的概率做出最后的决策
贝叶斯方法的综合判别能力很强
二、朴素贝叶斯法概述
- 朴素贝叶斯法(Naive Bayes)
-基于贝叶斯定理与特征条件独立假设的分类方法。 - 核心思想
- 对于给定的训练数据集
- 首先,基于特征条件独立假设学习输入/输出的联合概率分布
- 然后,基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
- y即为对应的类别 - 朴素贝叶斯算法,常用作自然语言处理的文本分类任务。
1、朴素贝叶斯法的前导知识
- 先验概率
- 条件概率
- 全概率公式
- 后验概率
2、朴素贝叶斯的算法流程
朴素贝叶斯算法总共有三步:
- 计算先验概率
- 统计样本集中样本总量$|D|$
- 求出类别的可取值的个数$K$
- 对每个类别统计样本数量$|y_k|$
- 计算出所有的频率,并用频率逼近概率:$P(y_k)$
- 计算条件概率
- 将样本集划分成$K$个子样本集,记作$D_k$
- 分别对每个样本子集进行计算
- 统计该子集中每个属性a的取值为$I$的样本的数量,记作$|a_{jI}|$
- 于是,可得$P(a{jI}|y_k)=\frac{|a{jI}|}{|D_k|}$
- 预测
- 针对待预测样本t,计算其对于每个类别y的后验概率
- 计算结果概率值最大的类别即为待预测样本的预测类别
3、朴素贝叶斯算法的优缺点分析
优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 对小规模的数据表现很好
- 对缺失数据不太敏感
缺点:
- 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率
- 需要知道先验概率
- 各个属性间是独立的,这个前提假设太强