基于非对称先验的作者主题模型.pdf

基于非对称先验的作者主题模型.pdf

ID:52411352

大小:1.45 MB

页数:52页

时间:2020-03-27

基于非对称先验的作者主题模型.pdf_第1页
基于非对称先验的作者主题模型.pdf_第2页
基于非对称先验的作者主题模型.pdf_第3页
基于非对称先验的作者主题模型.pdf_第4页
基于非对称先验的作者主题模型.pdf_第5页
资源描述:

《基于非对称先验的作者主题模型.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ADissertationSubmittedtoZhejiangUniVersityfortheDegreeofMasterofEngineeringTITLE垒璺Y坐坐里堡i堡二里!iQ!垒望!垒Q!坠巳i里丛Q鱼里!兰Author:SuperVisor:Subject:W.eiXue20821242XiaofeiHeComputerScienceCollege:CollegeofComputerScienceSubmittedDate:JanuaⅨ2011浙江大学硕:I:学位论文㈣删ⅢⅢ舢『『『fIⅢ

2、『『ff『朋Y1853137摘要本文提出了一个能同时分析文档主题和作者兴趣的概率图模型Asymmetric.priorAuthorLatentDirichletAllocation(AALDA)。互联网技术的发展给文本分析提出了很大的挑战。在搜索引擎优化,图书馆文本索引上,如何去处理海量的文本数据是学术研究热点之一。生成式模型(GenerativeModels)是分析文档内容的主流工具,它不仅可以提取大文本数据的结构信息,而且可以推测出新的文档的主题概率分布。其中以潜在狄利克雷分配(LatentDiric

3、hletAllocation)为代表的主题模型(TopicModels)利用多层次贝叶斯模型把文档表示成多个主题的概率混合。引入隐藏随机变量简化了原始似然函数。通过期望.最大似然估计(Eepectation.Maximization)算法,首先在期望步骤估计出隐藏随机变量的后验概率。在最大化似然函数的步骤中,估计出模型中重要的参数。其中包括主题在所有单词表上的概率分布,文档的主题混合概率。本文中主要推导了LDA模型中如何在期望估计步骤中用Gibbs采样(GibbsSampling)来估计隐含随机变量的后验

4、概率。然后介绍了基于非对称先验的LDA。经过对中间文档主题随机变量的积分,它与词语主题选择随机变量z构成了波利亚分布(PolyaDistribution)。这个分布于波利亚罐模型相对应,在原本确定主题个数的情况下,使得单词的主题选择随机变量有聚类的效应。新的模型把原始LDA中先验的均匀分布作为一个不确定的参数,并用极大似然来估计。为了快速优化波利亚分布的参数,避免二次Gibbs采样造成迭代次数的平方倍数的增长,本文使用了Minka的不动点优化算法。最后本文提出了如何使用非对称先验来同时分析文档的主题和作者

5、主题兴趣的模型AALDA。在这个模型中,每个作者都被赋予了一个非对称先验,用来捕捉文档中作者对单词的偏好,以此来反映出作者的哪些主题感兴趣。该模型在NeuralInfornlationProcessSvstems会议(NIPS)90年代论文数据上取得了良好的效果。从结果来看,模型分析出了当时NIPs会议上有哪些热点讨论话题和几个著名学者主浙江大学硕士学位论文摘要要研究哪些话题。而且,作者的主题兴趣的稀疏性也符合我们的先验知识。通过对似然函数和困惑度的计算,新的模型较LDA提高了模型的推广能力。关键词:机器

6、学习,主题模型,概率图模型浙江大学硕士学位论文Abs仃actAbstractThispaperproposesanoVelmodelwhichcansimuItaneouslyanalysethesemanticstructureofdocumentcollectionsandinterestsoftheseauthors,namedAsymmetric-priorAuthorLatentDirichletAllocation(AALDA).AneXplosiVe狮ountofwebtextinfomat

7、ionischallenginginformationretrieValandmachineleamingareas.Inwebsearchengineoptimization,howtoanalysethesedataindig—itallibraries,howtomodelinfomationandeStimatingnewdocumentsarealwaysheatedissuesinacademicresearchfield.GeneratiVemodelsarethemostpopularaI

8、ldeff.ectiVetoolsforanalysingla唱e-scaleteXtdata.NotonlytheycaneXtracttheinterpretablesemanticstructureofteXtinfomation,butalsocanpredictthepropeniesofnewdocuments.LatentDirichletAllocationisoneofthemoStpopularmodels

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。