基于微博内容的新词发现方法-论文.pdf

基于微博内容的新词发现方法-论文.pdf

ID:58298894

大小:358.52 KB

页数:5页

时间:2020-05-04

基于微博内容的新词发现方法-论文.pdf_第1页
基于微博内容的新词发现方法-论文.pdf_第2页
基于微博内容的新词发现方法-论文.pdf_第3页
基于微博内容的新词发现方法-论文.pdf_第4页
基于微博内容的新词发现方法-论文.pdf_第5页
资源描述:

《基于微博内容的新词发现方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第2期模式识别与人工智能Vo1.27No.22014年2月PR&AIFeb.2014基于微博内容的新词发现方法木霍帅张敏刘奕群马少平(智能技术与系统国家重点实验室北京100084)(清华信息科学与技术国家实验室(筹)北京100084)(清华大学计算机科学与技术系北京100084)摘要新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征

2、相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F一值提高到89.6%.关键词新词发现,上下文熵,未登录词提取中图法分类号TP391.1NewWordsDiscoveryinMicroblogContentHUOShuai,ZHANGMin,LIUYi—Qun,MAShao—Ping(StateKeyLaboratoryofeUigentTechnologyandSystems,BeO'ing100084)(TsinghuaNationalLaboratoryforInformationSciencea

3、ndTechnology,Beijing100084)(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beifing100084)ABSTRACTNewwordsdiscoveryisofgreatsignificanceinthefieldofnaturallanguageprocessing.Itismoredificulttofindnewwordsinmicroblogthaninothercorpus.Inthispaper,anal

4、gorithmbasedoncontextentropyisproposed,andthenewwordcandidatesarefilteredbasedonthecontext.Toimprovetheprecision,lexicalfeaturesareintroducedandanalgorithmcombiningthemwithtermfrequencyisputforward.Thus,theprecisionrateandtherecallratearegreatlyimproved,andtheF

5、—measurevalueisupto89.6%.KeyWordsNewWordDiscovery,ContextEntropy,UnknownWordsExtraction1引言方语言,词与词之间有固定的分隔符,因此中文自动分词往往作为中文信息处理任务最开始的一个重要步骤.但随着互联网的不断发展,尤其是web2.0应在中文信息处理领域,由于中文不像英文等西$国家自然科学基金项目(No.60903107,61073071)、国家863计划项目(No.2011AA01A205)资助收稿日期:2013—05—13作者简介

6、霍帅(通讯作者),男,1989年生,硕士研究生,主要研究方向为信息检索.E.mail:huoshuai303@163.con.张敏,女,1977年生,博士,副教授,主要研究方向为信息检索.刘奕群,男,1981年生,博士,副教授,主要研究方向为信息检索.马少平,男,1961年生,教授,博士生导师,主要研究方向为智能信息处理、信息检索.142模式识别与人工智能27卷用的出现,允许用户自己创造网页内容,从而导致大于统计的方法较灵活,有较强的适应性,需较大规模量新词出现.新词的出现很大程度上影响自动分词的语料进行统计和模型训

7、练,准确率相对较低.现在工具的准确性,研究显示,60%的分词错误是由新词大多数研究者都采用统计与规则相结合的方法,发导致的⋯.因此,新词发现是中文自然语言处理领挥组合优势,从而改进新词发现效果.域的一项重要研究内容.微博内容数据量庞大,且微博发布者具有不同根据中国互联网络信息中心(ChinaInternet的知识背景.基于规则的方法由于其领域相关性,很NetworkInformationCenter,CNNIC)发布的2012年难直接适用于微博内容;单条微博长度短,噪声大,中国互联网络发展状况统计报告,截至2012年

8、12基于统计的方法很难达到较高的准确率.本文中,将月底,我国微博用户为3.09亿,网民中的微博用户统计方法与词法信息相结合,提出引用词关联性信比例达到54.7%,高达65.6%的微博用户使用手机息的迭代上下文熵算法,得到候选新词列表,并用词终端访问微博.微博内容实时反映人们的生活,体现法特征与统计特征相结合的方法进行过滤,实现基流行时尚的前沿,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。