PLDA使用手册 - 1

ID：2135871

大小：138.14 KB

页数：15页

时间：2017-11-14

资源描述：

《PLDA使用手册 - 1》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、PLDA使用手册一、介绍1.LDA隐含狄利克雷分布简称LDA(LatentDirichletallocation)，是一种用于离散数据集合如文本语料库的生成概率模型。它是文档-主题-词（document-topic-word）三级分层的结构：LDA将文档集合中的每篇文档看作是不同主题构成的，主题是按照一定概率分布的；而每个主题中的词也有其概率分布。同时LDA也是一种无监督学习算法，在训练时不需要手工标注，仅仅指定主题的数量，他就可以自动发现文档的主题。训练的结果是以概率分布的形式给出的，即一篇文档不是确定的属于某个主题，而是对于每个主题

2、有不同的概率。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。LDA首先由DavidMBlei、吴恩达和MichaelIJordan于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种非监督机器学习技术，能够识别大规模文档集或语料库中潜在的主题信息，同时还能够预测推断一篇新的文档和哪些主题相关。LDA模型现在已经成为了主题建模中的一个标准。LDA模型自从诞生之后有了蓬勃的扩展，特别是在社会网络和社会媒体研究领域最为常见。LDA能够识别大规模文档集中的潜在主题信息，

3、同时还能够预测推断（inference）一篇新文档和哪些主题（topic）相关。LDA采用的是词袋（bagofwords）的方法,即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系，只有使用的频率。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。如果两个不同的词经常一起出现在文档中，那么LDA的训练算法倾向于把这两个词归于同一个主题。一般来说LDA的实现包括训练算法和预测算法两个部分：训练算法是指基于已有的文档集，学习出LDA模型，LDA模型的效果和模型收敛情况有较大影响；预测算法是指利用已学习出

4、来LDA模型去推断一篇新文档的主题分布。LDA假设文档是这样产生的，要产生一篇文档，首先要生成该文档的主题分布，即一篇文档会包含哪些主题以及每个主题所占的比例；然后要生成这篇文档中的所有词，每个词的生成需要根据该文档中主题的概率分布随机选择一个主题，再根据该主题中词的概率分布随机生成一个词。基于这种假设，LDA根据现实的大量文档集，训练得到主题的概率分布和每个主题中词的概率分布。由于LDA的训练需要成千上百次迭代，每次迭代需要遍历所有训练文档的所有词，并且不断更新其中的文档-主题矩阵（大小为D×K，其中D为文档个数、K为主题个数）、主题

5、-词矩阵（大小为K×V，其中V为词数）,非常耗时，所以训练算法并行需求很大。2.PLDA软件PLDA是由Google实现的MPI并行版本的LDA软件，它采用高度优化的并行Gibbs采样算法，可以用于LDA训练及预测判断。PLDA解决了存储和计算的瓶颈，并且对于长时间的分布式计算提供了错误恢复机制。它的源代码可以在其主页下载到，https://code.google.com/p/plda/。但是PLDA在内存和存储、以及扩展性方面都遇到了瓶颈，为了解决这些问题，中科院网络中心在MPI并行版本LDA软件的基础上进行了进一步优化：一是修改了处

6、理的数据结构，优化了内存的使用，减少内存使用量；二是引入了OpenMP多线程并行，将LDA增强为两级混合并行模式，提高了程序的可扩展性，使其能够在更大规模的机器上良好运行；三是增加了预处理，过滤掉出现频率低的词，从而在保证训练结果准确的前提下，减少了计算量。二、安装1.下载源代码下载plda-omp.tar.gz，将它放置在想要的目录下，并解压缩tarxvfzplda-omp.tar.gzcdplda-omp运行ls列出所有的文件源代码中包括以下的程序：lomp_lda：基于MPI以及OpenMP的混合并行PLDA训练程序plda目录下

7、存放是是原始的PLDA3.1版本，其预测推断程序infer是需要的llda：单处理器版本的LDA训练程序lmpi_lda：基于MPI的并行PLDA训练程序linfer：单处理器版本预测推断程序，使用训练程序得到的LDA模型对新文档的主题进行预测推断testdate目录lsample.txt：本文档中各节示例中使用的小数据集，用于说明数据格式ltest_date.txt：测试用数据集文件Tools目录lpreprocess：预处理程序，将训练数据集中的词替换为唯一编号，并生成字典文件lpostprocess：后处理程序，将模型文件中的唯一

8、编号对应回词lview_model.py：将训练程序生成的模型文件转换成可读文本的Python程序2.修改Makefile编译PLDA源代码要求系统中安装有C++编译器以及MPI环境，C++编译器有GCC、

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 15



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

PLDA使用手册 - 1

PLDA使用手册 - 1

相关文章

相关标签