LDA: latent dirichlet allocation
考虑两个句子的语义。而不是生硬的以单词出现与否等来作为句子的特征,因为这样没有考虑到一词多义和一义多次的问题。
它是一个生成模型,他认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
如何生成M份包含N个单词的文档
unigram model
通过训练预料获得一个单词的概率分布函数,然后根据这个概率分布函数每个生成一个单词,通过这种方法M次生成M个文档。(单词的概率分布函数可以通过预料进行统计学习得到)
Mixture of unigram
unigram的缺点是生成的文本没有主题,比较简单。根据主题的概率分布产生主题,然后由主题对应的单词概率分布生成单词,根据这种方法来生成文档。但这种方法主题只选择一次。
LDA
按照先验概率p(di)选择一篇文档;从狄利克雷分布(即Dirichlet分布)中取样生成文档di的主题分布,换言之,主题分布由超参数为theta的Dirichlet分布生成;从主题的多项式分布中取样生成文档di第j个词的主题zij;从狄利克雷分布(即Dirichlet分布)中取样生成主题对应的词语分布,换言之,词语分布由参数为beta的Dirichlet分布生成;从词语的多项式分布中采样最终生成词语wij。
pLSA: probabilistic latent semantic analysis
频率派思想,参数未知但固定。
LDA在pLSA的基础上为主题分布和词分布分别加了两个Dirichlet先验。即pLSA中当确定了一篇文档主题分布和词分布是唯一确定的;而LDA主题分布和词分布不再唯一确定不变,但再怎么变化,也依然服从一定的分布,即主题分布跟词分布由Dirichlet先验随机确定。
Gaussian LDA
没看,用到再说吧。
Gaussian LDA(2): Gaussian LDA简介