简单描述用高性能计算LDA主题模型?

将文档集中每篇文档的主题以概率分布的形式给出，通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

在LDA模型中，一篇文档生成的方式如下：

从狄利克雷分布alpha中取样生成文档 i 的主题分布θi

从主题的多项式分布θi中取样生成文档i第 j 个词的主题zij

从狄利克雷分布beta中取样生成主题zij对应的词语分布φzij

从词语的多项式分布φzij中采样最终生成词语wij