简单描述用高性能计算LDA主题模型?

将文档集中每篇文档的主题以概率分布的形式给出,通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。


在LDA模型中,一篇文档生成的方式如下:


从狄利克雷分布alpha中取样生成文档 i 的主题分布θi


从主题的多项式分布θi中取样生成文档i第 j 个词的主题zij


从狄利克雷分布beta中取样生成主题zij对应的词语分布φzij


从词语的多项式分布φzij中采样最终生成词语wij


蓝海大脑 京ICP备18017748号-1