LDA Topic Model

前面我们已经学过了 pLSA，再来看 LDA 的时候会觉得很简单（不要被各种分布吓到了），总的来说， LDA 可以看做是 pLSA 的贝叶斯版本。

pLSA 假设每篇文档的生成过程是这样的：

并且每个主题在所有词项上服从 Multinomial 分布，每个文档在所有主题上服从 Multinomial 分布。

此处输入图片的描述

在频率学派的观念里，参数 $\theta = (P(z|d), P(w|z))$ 是确定的。放在这里，也就是说，对于一篇给定的文档，其对应的主题分布是确定的；对于一个给定的主题，其词分布也是确定的。

而贝叶斯学派认为，参数 $\theta = (P(z|d), P(w|z))$ 是随机的，服从一定的分布。也就是说，主题分布和词分布不应该是确定不变的，而是服从某种分布。

现在我们来看一看 LDA 是如何贝叶斯化 pLSA.

LDA模型中，一篇文档生成的方式如下：

此处输入图片的描述

在 “LDA数学八卦” 里面有两个非常形象的图，可以很直观看出 pLSA 和 LDA 之间的区别，

此处输入图片的描述

待完善~