Logistic Regression and Naive Bayes
数学表示
我们先推导下 Logistic Regression 和 Naive Bayes在数学表达上的相关性1.
我们假设 $P(X_i|Y=y_k)$ 服从高斯分布(Gaussian Naive Bayes): $\mathcal{N}(\mu_{ik},\delta_i)$,
从而,
其中,
区别2
- Naive Bayes是一个生成模型,在计算 $P(y|x)$ 之前,先要从训练数据中计算 $P(x|y)$ 和 $P(y)$ 的概率,从而利用贝叶斯公式计算 $P(y|x)$ 。 Logistic Regression 是一个判别模型,它通过在训练数据集上最大化判别函数 $P(y|x)$ 学习得到,不需要知道 $P(x|y)$ 和 $P(y)$。
- Naive Bayes是建立在条件独立假设的基础上, Logistic Regression的限制则要宽松很多,如果数据满徐条件独立假设,Logistic Regression能够取得很好的效果;当数据不满度条件独立假设时,Logistic Regression仍然能够通过调整参数让模型最大化的符合数据的分布,从而训练得到在现有数据集下的一个最优模型。
- Naive Bayes运用了比较严格的条件独立假设,为了计算 $P(y|x)$,我们可以利用统计的方法统计数据集中 $P(x|y)$ 和 $P(y)$ 出现的次数,从而求得 $P(x|y)$ 和 $P(y)$。因而其所需的数据量要小一些,为 $\mathcal{O}(\log n)$. Logistic Regression 在计算时,是在整个参数空间进行线性搜索的,需要的数据集就更大,为$\mathcal{O}(n)$