中文短文本命名实体识别方法地研究

中文短文本命名实体识别方法地研究

ID:34160950

大小:2.45 MB

页数:55页

时间:2019-03-03

中文短文本命名实体识别方法地研究_第1页
中文短文本命名实体识别方法地研究_第2页
中文短文本命名实体识别方法地研究_第3页
中文短文本命名实体识别方法地研究_第4页
中文短文本命名实体识别方法地研究_第5页
资源描述:

《中文短文本命名实体识别方法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明

2、JIIJⅢIJJJII

3、JIj『

4、ll

5、

6、

7、IIl枷l?

8、JIIIJJJⅢY1824843本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庞由g电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。年歹月岁D日学位论文版权使用授权书本学位论文作者完全了解重迭邮电太堂有关保留、使用学位论文的规毛,有权保留并向国家有关部门或机构送交论文的复印件和

9、磁盘,允许论文被查阅和借阅。本人授权重庞整电盔堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:j.一寸导师签名:苏碑签字眺1年岁月36日签字日期卅年j月;I国重庆邮电大学硕士论文摘要随着BBS,聊天室,即时通讯软件,手机短信等这些短文本在Internet信息流中日益突出的地位,人们迫切需要一些自动化工具帮助进行短文本海量信息处理。短文本命名实体识别是短文本处理中必不可少的关键技术,具有重要的研究意义。迄今为止,据我们所知,尚无人进行该方面的

10、研究,所以,它也是一项急需解决的紧迫任务。短文本命名实体识别主要存在下述两个问题:首先,现有的命名实体识别方法不适合短文本命名实体识别。如何依据已有的命名实体识别方法,结合短文本自身的特性,探寻出适用于短文本的命名实体识别方法成为急需解决的重要问题。其次,短文本组织名的识别效率低下问题。如何提高短文本组织名识别成为短文本命名实体识别的一个重要问题。。针对第一个问题,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性

11、,提出用HMM(隐马尔可夫模型)以词性做观察值,通过Viterbi算法进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。实验表明,该方法能较好的进行短文本命名实体识别。针对第二个问题,提出了一种利用实体关系识别短文本组织名的方法。该方法主要分成三步:第一步,改进朴素贝叶斯分类器为关系分类器,对文本标注关系类别标签。第二步,标签不为O:根据实体关系类别和文本中存在的人名,地名情况,判定文本中是否存在组织名,若存在则根据组织名后缀特征库定位出。第三步,标签为O:提取0类文本中组织名待选词,放入百度重构语料,再次利用朴素贝叶斯关系分

12、类器标注重构语料中实体关系,最后通过重构语料中组织名待选词被判定为组织名的概率判断当前待选词是否为组织名。经过实验表明,该方法能有效提高短文本组织名实体的识别。关键词:短文本,命名实体识别,隐马尔可夫,拼音同指,实体关系重庆邮电大学硕士论文Abs仃actAbstractBecauseofmeincreasiI培p删nentsta:cIlsofshorttextinin:temetiIIfbmlationnow'such邪BBS,chatroom,蚴co删cationso腑are,mobil印honeshortmessage,etc.Peopleneedso

13、meautomatedtoolst0p∞cessnlosemassiVeinf0加枷onofshortteXt1lI苫eImy.Asmegreati111portan_t锄da:bsohltelynecessarykeytecllIl0109y,meresearChonN锄edEnt时RecognitionforshortteXtissigIlificant.AsweImow,n0onehascarriedoutmerelatedresearchbynow.Thlls,“isalso趾u玛enttask.N锄edEnti够RecogIlitionofsho

14、rttextlIa_Venlefollowi】唱t、ⅣoissuesmailllyAt丘咄t11eeXis血gmemodSofN锄edEn.岫Rec删tion骶not锄itableforshontext.Thllshowt0c伽db缸她mem甜10dsofNamedEnt时Reco咖tionand吐团锄:研sticsofshortteXtt0∞【ploretheme也odsofshorttcxtN锄edE矾哆Recogmtionbecomesinlp01协tissue灏缸chneedst0beaddressedurgently.Atsecon吐吐lee街c

15、iencyof廿1eO垮111izationEntityReco鲥

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。