前面我们已经学过了 pLSA,再来看 LDA 的时候会觉得很简单(不要被各种分布吓到了),总的来说, LDA 可以看做是 pLSA 的贝叶斯版本

宏观把控

pLSA 假设每篇文档的生成过程是这样的:

  • 以 $P(d)$ 的先验概率选择一篇文档 $d$
  • 选定 d 后,以 $P(z|d)$ 的概率选中主题 z
  • 选中主题 z 后,以 $P(w|z)$ 的概率选中单词 w

并且每个主题在所有词项上服从 Multinomial 分布,每个文档在所有主题上服从 Multinomial 分布。

此处输入图片的描述

频率学派的观念里, 参数 $\theta = (P(z|d), P(w|z))$ 是确定的。放在这里,也就是说,对于一篇给定的文档,其对应的主题分布是确定的;对于一个给定的主题,其词分布也是确定的。

贝叶斯学派认为,参数 $\theta = (P(z|d), P(w|z))$ 是随机的,服从一定的分布。也就是说,主题分布和词分布不应该是确定不变的,而是服从某种分布。


现在我们来看一看 LDA 是如何贝叶斯化 pLSA.

LDA模型中,一篇文档生成的方式如下:

  • 狄利克雷分布 $\alpha$ 中取样生成文档 $m$ 的主题分布 $\vartheta_m$
  • 从主题的多项式分布 $\vartheta_m$ 中取样生成文档 $m$ 第 $n$ 个词的主题 $z_{m,n}$
  • 狄利克雷分布 $\beta$ 中取样生成主题 $z_{m,n}$ 对应的词语分布 $\varphi_{z_{m,n}}$
  • 从词语的多项式分布 $\varphi_{z_{m,n}}$ 中采样生成最终的词语 $w_{m,n}$

此处输入图片的描述


在 “LDA数学八卦” 里面有两个非常形象的图,可以很直观看出 pLSA 和 LDA 之间的区别,

此处输入图片的描述


数学表述

待完善~