PLDA使用手册 - 1

PLDA使用手册 - 1

ID:2135871

大小:138.14 KB

页数:15页

时间:2017-11-14

PLDA使用手册 - 1_第1页
PLDA使用手册 - 1_第2页
PLDA使用手册 - 1_第3页
PLDA使用手册 - 1_第4页
PLDA使用手册 - 1_第5页
资源描述:

《PLDA使用手册 - 1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、PLDA使用手册一、介绍1.LDA隐含狄利克雷分布简称LDA(LatentDirichletallocation),是一种用于离散数据集合如文本语料库的生成概率模型。它是文档-主题-词(document-topic-word)三级分层的结构:LDA将文档集合中的每篇文档看作是不同主题构成的,主题是按照一定概率分布的;而每个主题中的词也有其概率分布。同时LDA也是一种无监督学习算法,在训练时不需要手工标注,仅仅指定主题的数量,他就可以自动发现文档的主题。训练的结果是以概率分布的形式给出的,即一篇文档不是确定的属于某个主题,而是对于每个主题

2、有不同的概率。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由DavidMBlei、吴恩达和MichaelIJordan于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种非监督机器学习技术,能够识别大规模文档集或语料库中潜在的主题信息,同时还能够预测推断一篇新的文档和哪些主题相关。LDA模型现在已经成为了主题建模中的一个标准。LDA模型自从诞生之后有了蓬勃的扩展,特别是在社会网络和社会媒体研究领域最为常见。LDA能够识别大规模文档集中的潜在主题信息,

3、同时还能够预测推断(inference)一篇新文档和哪些主题(topic)相关。LDA采用的是词袋(bagofwords)的方法,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系,只有使用的频率。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。如果两个不同的词经常一起出现在文档中,那么LDA的训练算法倾向于把这两个词归于同一个主题。一般来说LDA的实现包括训练算法和预测算法两个部分:训练算法是指基于已有的文档集,学习出LDA模型,LDA模型的效果和模型收敛情况有较大影响;预测算法是指利用已学习出

4、来LDA模型去推断一篇新文档的主题分布。LDA假设文档是这样产生的,要产生一篇文档,首先要生成该文档的主题分布,即一篇文档会包含哪些主题以及每个主题所占的比例;然后要生成这篇文档中的所有词,每个词的生成需要根据该文档中主题的概率分布随机选择一个主题,再根据该主题中词的概率分布随机生成一个词。基于这种假设,LDA根据现实的大量文档集,训练得到主题的概率分布和每个主题中词的概率分布。由于LDA的训练需要成千上百次迭代,每次迭代需要遍历所有训练文档的所有词,并且不断更新其中的文档-主题矩阵(大小为D×K,其中D为文档个数、K为主题个数)、主题

5、-词矩阵(大小为K×V,其中V为词数),非常耗时,所以训练算法并行需求很大。2.PLDA软件PLDA是由Google实现的MPI并行版本的LDA软件,它采用高度优化的并行Gibbs采样算法,可以用于LDA训练及预测判断。PLDA解决了存储和计算的瓶颈,并且对于长时间的分布式计算提供了错误恢复机制。它的源代码可以在其主页下载到,https://code.google.com/p/plda/。但是PLDA在内存和存储、以及扩展性方面都遇到了瓶颈,为了解决这些问题,中科院网络中心在MPI并行版本LDA软件的基础上进行了进一步优化:一是修改了处

6、理的数据结构,优化了内存的使用,减少内存使用量;二是引入了OpenMP多线程并行,将LDA增强为两级混合并行模式,提高了程序的可扩展性,使其能够在更大规模的机器上良好运行;三是增加了预处理,过滤掉出现频率低的词,从而在保证训练结果准确的前提下,减少了计算量。二、安装1.下载源代码下载plda-omp.tar.gz,将它放置在想要的目录下,并解压缩tarxvfzplda-omp.tar.gzcdplda-omp运行ls列出所有的文件源代码中包括以下的程序:lomp_lda:基于MPI以及OpenMP的混合并行PLDA训练程序plda目录下

7、存放是是原始的PLDA3.1版本,其预测推断程序infer是需要的llda:单处理器版本的LDA训练程序lmpi_lda:基于MPI的并行PLDA训练程序linfer:单处理器版本预测推断程序,使用训练程序得到的LDA模型对新文档的主题进行预测推断testdate目录lsample.txt:本文档中各节示例中使用的小数据集,用于说明数据格式ltest_date.txt:测试用数据集文件Tools目录lpreprocess:预处理程序,将训练数据集中的词替换为唯一编号,并生成字典文件lpostprocess:后处理程序,将模型文件中的唯一

8、编号对应回词lview_model.py:将训练程序生成的模型文件转换成可读文本的Python程序2.修改Makefile编译PLDA源代码要求系统中安装有C++编译器以及MPI环境,C++编译器有GCC、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。