基于web的新词语发现研究

基于web的新词语发现研究

ID:23362954

大小:1.82 MB

页数:59页

时间:2018-11-07

基于web的新词语发现研究_第1页
基于web的新词语发现研究_第2页
基于web的新词语发现研究_第3页
基于web的新词语发现研究_第4页
基于web的新词语发现研究_第5页
资源描述:

《基于web的新词语发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、安徽大学硕士学位论文基于Web的新词语发现研究姓名:盛启东申请学位级别:硕士专业:电路与系统指导教师:徐超;谭守标2010-05摘要摘要随着互联网的兴起,Internet几乎进入了人们生活的各个角落,在给人们带来巨大便利的同时也不断影响着人们所使用的语言,特别是语言中的词语,越来越多的中文新词语出现在网络上,影响着人们的日常交流用语。中文新词的出现丰富了语言的色彩,同时也给词库更新、自然语言处理、词典编纂等领域带来了很多困难。鉴于当前新词语并没有一个准确的、公认的定义,如何快速、准确的查找出新词

2、语成了一个比较麻烦的问题。本文根据语言学和词法分析中关于新词语的定义,将新词语分为词形新的词语、命名实体和意义用法发生变化的已有词语这三大类。本文主要研究的是对于词形新的词语的自动发现。从当前来看,国内外对于词形新的新词语识别研究还不多见,而且现有的研究提取的新词语一般都是限于词长或者是限于领域。本文提出了自己的方法——从互联网上采集大量的新闻网页,然后从新闻内容中提取新词语。我们的目标是从全局角度寻找在指定日期后出现的不限领域和词长的新词语。本文提出的方法实现的系统分为三个部分:网页采集、网页

3、分析和新词语的提取。在网页采集部分用网页爬虫程序下载指定网页;网页分析部分提取网页的新闻内容和新闻日期,对内容用分词程序进行分词,重复串查找,然后将所有的词和串带上日期存入原始信息数据库;新词语提取部分根据日期将原始信息数据库分成过滤数据库和背景数据库,然后在过滤库中进行新词语的候选词的提取,再进行自动过滤,得到提取出的新词语。本文主要对重复串查找、提取新闻网页的内容和时间及新词语的提取进行了阐述,重点介绍了重复串查找的算法,结合已有算法的优点提出了自己的算法,经验证该算法具有较好的线性的空间复

4、杂度和时间复杂度。关键词:中文新词语自动发现重复串查找I基于Web的新词语发现研究AbstractAccessibletoalmosteverycornerofpeople’slives,Internetnotonlybrings peoplegreatconveniencebutalsoincreasinglyinfluenceourlanguage,especiallythe words.MoreandmoreChinesenewwordsandexpressionsappearinthen

5、etwork, exertinggreatinfluenceonpeople’sdailycommunication.Theirappearanceenriches ourlanguagemorewhiletheidentificationofthenewly-appearedexpressionsalso bringsnewchallengestotheadaptationoflexicon,dictionarycompilationand naturallanguageprocessing.

6、Itisatoughjobtosearchoutthenewwordquicklyand accuratelyintermsthatthereisnotaclear-cutandcommonly-accepteddefinitionfor newwordnow.Thisthesis,basedontheirdefinitionsinlinguisticsandlexical analysis,dividesnewwordsintothreecategories,i.e.,namedentity,

7、theexistedword orexpressionwithnewmeaningornewusageandthewordsorexpressionswith newmorphology.Thisthesiswillfocusontheautomaticsearchingofnewly-coined words.Whiletheresearchonidentificationofthenewly-coinedwordorexpressionis limitedandtheresearchisre

8、strictedbythelengthorthefield,thecurrentstudy proCharesanewmethod,thatis,tosearchnewly-inventedwordsandexpressionsin thewebpagegatheredfromInternetwhichaimstosearchforthenewwords appearingafteranygivendatewithoutthelimitationoflengthandfield.Ourimple

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。