自然语言处理概述

自然语言处理概述

ID:47325816

大小:26.10 KB

页数:6页

时间:2020-01-10

自然语言处理概述_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《自然语言处理概述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、自然语言处理概述自然语言处理概述完成时间:2016/5/14手机号码:17801020866李博(计算机科学与技术专业2014级4班,学号:14281091)摘要:经过近几十年的发展,自然语言处理技术的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。本文简单介绍了自然语言处理领域中常见的算法。关键字:自然语言处理;中文分词;词法分析;句法分析自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目标是给计算机配备各种知识语言,使其能够接受人们采用自然语言给它输人的命令,理解人们所要表达的意思,实现从一种语言

2、到另一种语言的翻译等功能。从研究的侧重点角度看,自然语言处理研究主要有两方面:其一是偏向于理论的自然语言理解研究,它一般偏向于用计算机分析自然语言输入,从中得出与输人有关的一些结论;其二为机器翻译研究,它较偏向于实用效果,主要面向不同自然语言文种之间的转换;也包括自然语言表达到系统内部命令形式的转换,即自然语言接口研究。目前,自然语言处理的研究成果已在数据库系统设计、大型软件包、人工智能研究、专家系统设计等领域得到了广泛的应用。1自然语言处理的难点-6-自然语言处理概述单词的边界界定在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用

3、能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。词义的消歧许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。句法的模糊性自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(ParseTree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。有瑕疵的或不规范的输入例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。语言行为与计划句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一

4、个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。2当前自然语言处理研究的发展趋势第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。  第三,浅层处理与深层处理并重,统计与规

5、则方法并重,形成混合式的系统。  第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理统计自然语言处理运用了推测学、机率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markovmodels)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及资料采掘所演进而成。-6-自然语言处理概述3中文自然语言处理中文(C

6、hinese),也称为汉语,按照字型分为简体中文和繁体中文。按照时间可分为古代汉语和现代汉语。本书所述的中文在不做特别说明是一般指现代汉语。中文的语素绝大部分是单音节的。语素和语素可以组合成词(比如:吃+饭⇒吃饭)。有的语素本身就是词(手、洗),有的语素本身不是词,只能跟别的语素一起组成复合词(民→人民,失→丧失)。现代汉语里双音节词占的比重最大。大部分双音词都是按照上面提到的复合方式造成的。有些语素虽然在现代汉语里不能作为一个词单独用,但是有时候在借用古汉语的词句时,也偶尔作为词来使用。下面几节简单介绍下中文自然语言处理中的主要研究问题。3.1中文

7、分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文分词是中文信息处理的基础与关键。中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。现代汉语的基本表达单元为“词”,以双字或多字词居多,一个字不再等同于一个词。3.1.1基于字符串匹配分词机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标

8、注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。