领域关键词抽取结合lda与word2vec

领域关键词抽取结合lda与word2vec

ID:35102480

大小:931.55 KB

页数:35页

时间:2019-03-17

领域关键词抽取结合lda与word2vec_第1页
领域关键词抽取结合lda与word2vec_第2页
领域关键词抽取结合lda与word2vec_第3页
领域关键词抽取结合lda与word2vec_第4页
领域关键词抽取结合lda与word2vec_第5页
资源描述:

《领域关键词抽取结合lda与word2vec》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10663论文编号:199学号:4201310000366贵州师范大学硕士学位论文领域关键词抽取:结合LDA与Word2VecKeywordExtractionbasedonLDAandWord2Vec专业名称:计算机科学与技术专业代码:081200研究方向:自然语言处理申请人姓名:韦强申导师姓名:杨华二零一六年五月摘要随着互联网与信息技术的发展,大数据分析成为目前热门话题之一。大数据分析主要从海量数据中提取有意义的信息作为数据特征,通过分析已有数据的特征,实现数据的归纳分析,预测数据集的发

2、展方向。自然语言处理是实现文本信息智能分析的一项重要研究工作。对特定领域内文本的分析,可以获取该领域内的重要信息,以及实现对该领域发展方向的预测。针对财经领域而言,分析财经领域内海量的文本信息,可以了解经济发展的前景,实现对经济发展的预测。中文文本分析主要是文本的分类、聚类等工作,依赖于对文本中词汇的分析。从文本词汇集中提取主要的信息是分析文本的基础工作。关键词是文本数据的重要特征,是分析文本数据的重要依据。关键词自动识别方法是自然语言处理研究的基本任务,是分析文本的前提,具有重要的研究意义。本文研究

3、以财经领域文本为例,提出了一种基于主题模型和词汇相似相结合的方法,提取财经领域关键词。通过已有的分词工具实现中文文本分词,提取文本中的词汇;对给定的文本集建立主题模型,提取主题相关词汇作为初始关键词集;提取与初始关键词集语义相似的词汇,扩展关键词集。主要工作如下:对财经领域内的新闻文本利用已有的分词工具切分文本,提取文本集中的词汇。依据LDA(LatentDirichletAllocation,隐含的狄利克雷分布)对I文本集建立主题模型,提取主题相关词汇形成初始关键词集。依据word2vec模型,将财

4、经领域内词汇向量化表示,计算初始关键词集中的词汇与领域内词汇间向量的相似度,对关键词集进行扩展。通过实验进行数据分析。第一,利用主题模型提取初始关键词集,计算初始关键词集的准确率;第二,利用主题模型和词汇相似,对初始关键词集进行扩展,提取关键词集,计算关键词集的准确率;第三,利用已有的TF-IDF(termfrequency–inversedocumentfrequency)方法提取关键词集,计算关键词集的准确率。比较三种方法的实验结果,依据实验结果得到,针对财经领域内文本,基于LDA模型和Word2

5、Vec模型相结合提取关键词的方法效果较好。关键词:关键词提取,LDA模型,Word2Vec模型,领域词汇IIAbstractsWiththedevelopmentofInternetandinformationtechnology,BigDataAnalyticsbecomeoneofthehottesttopics.Naturallanguageprocessing(NLP)isanimportantsub-areainArtificialIntelligence.ThepurposeofNLPis

6、toanalyzevastamountsoftextdata.Analysisofthespecificareasoftext,importantinformationinthisareacanbediscovered,whichishelpfulforimplementationofforeseeingthefutureoutcomeinthefield.Forthepurposesofthefinancialfield,byanalyzingvastamountsoftextinformation

7、inthefieldofFinanceandEconomics,wecanunderstandtheprospectsforeconomicdevelopment,toachieveeconomicdevelopmentforeseeing.Keywordsareimportantfeaturesofthetextdataandimportantbasisfortextanalysis.AutomaticKeywordsidentificationmethodisthefundamentaltasko

8、fNLPandhasimportantsignificanceandapplicationprospects.KeywordsExtractionisoneofthecoretechnologiesforChinesetextanalysis,andplaysanimportantroleintextanalysis.MostcurrentlyusedmethodsneedtosegmentChinesetextandcountthewordinlarg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。