基于spark的并行化主题模型算法研究

基于spark的并行化主题模型算法研究

ID:20610213

大小:55.08 KB

页数:8页

时间:2018-10-14

基于spark的并行化主题模型算法研究_第1页
基于spark的并行化主题模型算法研究_第2页
基于spark的并行化主题模型算法研究_第3页
基于spark的并行化主题模型算法研究_第4页
基于spark的并行化主题模型算法研究_第5页
资源描述:

《基于spark的并行化主题模型算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的并行化主题模型算法研宄摘要:为应对大数据量处理的挑战以及更加有效地进行文本的语义挖掘,本文利用快速通用的计算框架Spark进行典型主题模型潜在狄利克雷模型的并行化研宄。根据模型求解过程中利用吉布斯采样估计参数的特点,该文将模型的并行化实现分解为参数初始化、数据集分割以及吉布斯采样等过程,并利用Spark提供的丰富编程接口进行模型的训练设计。基于真实数据集上的实验表明,该文的并行化模型能够提取文本的主题分布。关键词:主题模型;Spark;吉布斯采样;文本挖掘;大数据中图分类号:TP391文献标识码:A文章编号:1009-3044(2

2、017)08-0017-02近年互联网的发展将信息时代带入了大数据时代,人们获取信息的方式不再是传统的PC端,而是扩展到了移动互联甚至是物联网等多样化的形式。越来越丰富的网络内容,使数据产生的速度、数据格式以及数据关系都变得难以再利用传统的数据处理技术进行数据的分析。因此,找到一种能够有效处理大数据的技术成为了数据时代的基本需求。基于Spark的并行化主题模型算法研宄摘要:为应对大数据量处理的挑战以及更加有效地进行文本的语义挖掘,本文利用快速通用的计算框架Spark进行典型主题模型潜在狄利克雷模型的并行化研宄。根据模型求解过程中利用吉布斯采样估计

3、参数的特点,该文将模型的并行化实现分解为参数初始化、数据集分割以及吉布斯采样等过程,并利用Spark提供的丰富编程接口进行模型的训练设计。基于真实数据集上的实验表明,该文的并行化模型能够提取文本的主题分布。关键词:主题模型;Spark;吉布斯采样;文本挖掘;大数据中图分类号:TP391文献标识码:A文章编号:1009-3044(2017)08-0017-02近年互联网的发展将信息时代带入了大数据时代,人们获取信息的方式不再是传统的PC端,而是扩展到了移动互联甚至是物联网等多样化的形式。越来越丰富的网络内容,使数据产生的速度、数据格式以及数据关系都

4、变得难以再利用传统的数据处理技术进行数据的分析。因此,找到一种能够有效处理大数据的技术成为了数据时代的基本需求。本文主要研宄内存计算框架Spark平台下主题模型算法LatentDirichletAllocation(LDA)的并行化及实现。LDA是Da-vidBlei,Andrew坛等提出的基于贝叶斯方法的无监督概率生成主题模型,广泛应用在信息检索、主题抽取、信息推荐等,本文在Spark框架下进行LDA主题模型的文本挖掘研究。1研究现状LDA模型利用两个假设:(1)文档是多个主题的集合,符合多项分布;(2)主题也是词语的混合,同样符合多项分布。整

5、个过程就是估计分布参数,在估计参数的方法中,Blei等使用变分贝叶斯方法估计先验分布参数,GregorHeinrichm应用Gibbs采样方法对LDA进行参数估计。关于LDA算法的改进,很多学者进行了深入而细致的研宄,既有变分贝叶斯也有Gibbs采样。针对大数据集处理提出的并行LDA首次由DavidNewman等提出,该论文提出两种LDA改进模型:(AD-LDA)和(HD-LDA),AD-LDA模型分割数据集加快速度,而精度有损失,HD-LDA混合模型包含多个LDA,相比AD-LDA精度提升,但复杂度高,因此,都集中在AD-LDA基础上深入研宄,

6、Porteoas等提出了FastLDA。除了上述的早期并行化研宄,LaWen等基于Mahout的CollapsedVariationalBayes(CVB)算法进行改进。由于Spark基于内存计算的优势,越来越多的大数据处理研宄放在了该平台上,Spark下的LDA模型研宄对文本处理的研宄具有非常重要的指导作用。2相关技术2.1LDA模型LDA模型中一篇文?n的生成方式过程如下:1)通过Dirichlet分布采样得到文档i的主题分布Oi;2)从主题的多项式分布0i取样生成文档i词语j的主题Zi,j;3)从Dirichlet分布P中取样生成主题Zi,

7、j词语分布4)zG,j);4)从词的多项式分布4)z(i,j)中采样最终生成词Wi,j。2.2Spark内存计算框架Spark是一种由加州大学伯克利分校AMP实验室开源的内存计算框架,相比HadoopMapReduce模型具有快速、通用、容错的特点,由于MapReduce对中间结果处理落地磁盘,所以不适合具有迭代和实时条件下的计算,而Spark采用ResilientDistributedDatasets(RDD)数据集,非常适合在迭代情况下的应用,因此适合机器学习等迭代算法的部署,Spark自身也包括了SQL处理、流计算、MLIib、图计算等组件

8、,因此在内存快速计算的前提下,还能适用在不同的应用场景下。3基于Spark的LDA主题模型的实现LDA模型使用贝叶斯推理方法,中间需要三

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。