互联网信息关键词抽取的研究与实现.pdf

互联网信息关键词抽取的研究与实现.pdf

ID:51200345

大小:6.60 MB

页数:70页

时间:2020-03-20

互联网信息关键词抽取的研究与实现.pdf_第1页
互联网信息关键词抽取的研究与实现.pdf_第2页
互联网信息关键词抽取的研究与实现.pdf_第3页
互联网信息关键词抽取的研究与实现.pdf_第4页
互联网信息关键词抽取的研究与实现.pdf_第5页
资源描述:

《互联网信息关键词抽取的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中国科学技术大学硕士学位论又互联网信息关键词抽取的研究与实现,作者姓名:学科专业:导师姓名:完成时间:汪洋模式识别与智能系统帅建梅副教授二O一二年五月六日UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeResearchonKeywordExtraction—Internq.=tExtractionfornternetIAuthor’SName:YangWangSpecialty:PatternRecognition

2、andIntelligentSystemSupervisor:AssociateProf.JianmeiShuaiFinishedtime:May6%2012中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:沃蕴签字日期:丝!星:笪:丝作者签名:坠盗签字日期:丝!星:垒:丝中国科学技术大学学位论文授

3、权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。V松开口保密(——年)作者签名:二堕兰驻签字日期:塑度!垦:生导师签名:签字日期:摘要关键词抽取是自然语言处理领域

4、中重要的基础技术,被广泛应用于信息检索、文本聚类、文本分类等方面。目前,互联网中的资讯规模急速增长,包含了大量富有价值的数据,关键词是检索及分析互联网信息的重要手段。但是,相当数量的网页没有标注关键词,通过人工标注是一个繁重而又困难的任务,因此,需要一种自动抽取关键词的方法。同时,以微博为代表的新兴信息传播平台出现,具有与传统媒体不同的传播特点,需要对传统文本关键词抽取方法做出改进。此外,互联网具有传播快速和参与广泛的特点,使得大量新词不断涌现,也给中文信息处理带来了挑战。本文从两个方面研究互联网信息:

5、以网页为代表的长文本信息、以微博为代表的短文本信息,主要研究工作如下:针对网页信息,提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。首先,选择词语的网页结构特征、词性、词长、TF.IDF值等特征,通过聚类算法抽取候选关键词;然后,根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,通过无监督方法将候选关键词扩展为关键词串。实验数据表明,该方法能在一定程度上改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。针对海量微博信息,提出一种多步骤的热词抽取方法。首

6、先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上,提出一种基于规则的话题树生成过滤算法,筛除微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息。实验数据表明,该方法能大大减小输入的数据规模,同时保留重要信息,从而较好地实现热词抽取。最后,在上述研究工作的基础上,本文设计了一个互联网关键词自动抽取系统,系统实现对网页及微博的自动抓取,并且抽取其中的关键词,实验证明,获得的结果具有一定的可读性及实用性。关

7、键词:关键词抽取语义扩展模型邻接变化数聚类算法n.gram模型用户行为模型摘要IIAbstractABSTRACTKeywordextractionisallimportantfoundationinNaturalLanguageProcessing(NLP)technology.Itisusedwidelyininformationretrieval,textclustering,andtextclassification.Atpresent,theIntemetisgrowingrapidly.Th

8、einformationcontainsmuchvaluabledata,however,alargenumberofpagesarenotmarkedbykeywords,andmanualannotationisallonerousanddifficulttask.Therefore,itneedsawaytoextractthekeywordsautomatically.Meanwhile,themicroblogbringsthed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。