LDA是比PLSA更高级

ID：42385793

大小：20.10 KB

页数：4页

时间：2019-09-14

资源描述：

《LDA是比PLSA更高级》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、LDA是比PLSA更“高级”的一种topicmodel。“高级”在哪里呢？－－它是一个BayesHierarchyModel。所谓BayesHierarchyModel说白了就是把模型的参数看作随机变量，这样可以引入控制参数的参数。说起来，比价绕。Topicmodel的一个通式为P(w

2、d)=sigma{p(w

3、z)*p(z

4、d)}其中云里雾里的topic，说白了就是一个一元语言模型，没有任何特殊的地方。对应上面的公式，就是p(w

5、z)。而topicmodel，一般指的是两种分布：第一种就是topic~word的分布，就是p(w

6、z)。第二种是p(z

7、d)，这个是doc~topic

8、分布。有了这两种分布后，这个文档集合就有了一种立体化的感觉，闭上眼睛，仔细地想：doc

9、----------------------------------------

10、

11、...

12、topic_1 topic_2 topic_m而topic_i

13、----------------------------------------

14、

15、...

16、word_1 wor

17、d_2 word_n一个三层的文档表示空间跃然纸上。而最上层，就是人们常说的“降维”，其实是把文档投影到了“topic”空间。doc~topic~word这个BayesChain，就可以涵盖LDA的一个最基本的思想。而PLSA其实也是这个链，那它和LDA有什么区别呢？最大的区别就在于，doc~topic这一级，PLSA把这一级的所有变量都看作模型的参数，即有多少文档那么就有多少模型的参数；而LDA引入了一个超参数，对doc~topic这一个层级进行model。这样无论文档有多少，那么最外层模型显露出来的［对于doc~topic］就只有一个超参数。那么加什么先

18、验呢？最基本的PLSA和LDA在刻画doc~topic和topic~word都利用了一个模型，就是multinomialmodel。为了计算的方便及先验的有意义，共轭先验是首选。multinomialdistribution的共轭分布是Dirichletdistribution，很nice的一个分布。这也是LatentDirichletAllocation中Dirichlet的由来。Dirichletprior是一个巨牛的先验：Bayespriorsmoothing的先验也是Dirichlet，因为在一元语言模型中，也采用了multinomial来刻画。而且在PLSA中引入的先验也

19、是Dirichlet。那么它到底有什么好处呢？让大家这么对它着迷。计算简单性是大家都知道的，现在说一点它的奇妙的implictidea:拿Bayespriorsmoothing说：P(w

20、d)={c(w,d)+mu*p(w

21、c)}/{

22、d

23、+mu}而最大似然的估计是P_ml(w

24、d)=c(w,d)/

25、d

26、平滑后的分母为c(w,d)+mu*p(w

27、c)｛原来为c(w,d)｝平滑后的分子为

28、d

29、+mu{原来为

30、d

31、}所以奇妙的地方就在不同的地方：好像文档多了mu个词，在这个mu新词中，有mu*p(w

32、c)这么多的w这就是pseudocount的思想。理解了这个以后，PLSA加先验的推导

33、，就不用再手推了。只要把这些多出来的先验词加上。一切就OK了。所以大家请记住吧，这对巨牛的共轭先验multinomial&Dirichlet那么如何推导LDA的那些参数呢？大体有两种方法：一种是作者的varitionalinference；另外一种是GibbsSampling。我比较熟悉的是GibbsSampling。大家可以上网去搜GibbsLDA的源代码。只要学会了GibbsSampling，那么这个代码很简单。GibbsSampling的一个最大的优点就是很好理解。具体理解部分略去。回到上面的话题：在这个层级结构中：doc~topic~word，刚才说到LDA是对(doc~t

34、opic)加了一个先验。然后他是如何利用这个先验的呢？利用了exchangabiltity。所谓可交换性，就是conditionalindependentandidenticallydistributed；注意与i.i.d的区别，“conditional”对应到LDA中，是那个超参数给定后，才能得出i.i.d。。。需要自己看paper理解。在我给定了doc~topic的先验后，对于一个文档，我取不同的topic的过程完全是独立的。这也是层级模型的一个很优美的地方。Wo

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

LDA是比PLSA更高级

LDA是比PLSA更高级

相关文章

相关标签