自然语言处理课件

自然语言处理课件

ID:15068334

大小:3.22 MB

页数:619页

时间:2018-08-01

自然语言处理课件_第1页
自然语言处理课件_第2页
自然语言处理课件_第3页
自然语言处理课件_第4页
自然语言处理课件_第5页
资源描述:

《自然语言处理课件》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、自然语言处理概述IntroductiontoNaturalLanguageProcessing刘秉权哈工大智能技术与自然语言处理研究室2006年11月本课重要性¢计算机最重要的应用之一是对语言文字的处理¢随着互联网的广泛普及,文字信息处理日益重要¢与最新应用密切结合:信息检索、信息安全、情报分析、决策支持等¢中文信息处理技术的进步,对推动中国信息产业的发展、促进国际文化交流、繁荣中国传统文化都具有重要现实意义NLP概述2目标¢掌握自然语言处理特别是中文语言(信息)处理的主要方法和基本理论,了解自然语言处理技术的国内

2、外发展现状、主要研究对象及所面临的问题,接触语言处理技术的前沿课题,具备运用基本原理和方法解决科学研究和工程开发中实际问题的能力。同时为学习机器翻译、信息检索等后续课程奠定扎实基础。NLP概述3什么是自然语言处理¢NaturalLanguageProcessing,NLP¢是用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等等)进行转换、传输、存贮、分析等加工处理的理论和方法NLP概述4相关提法¢中文信息处理(ChineseInformationProcessing)¢自然语言理解(Natura

3、lLanguageUnderstanding)¢计算语言学(ComputationalLinguistics)¢人类语言技术(HumanLanguageTechnology)NLP概述5什么是自然语言¢语言是人类交际的工具,是人类思维的载体¢以语音为物质外壳,由词汇和语法两部分组成的符号系统¢是约定俗成的,有别于程序设计语言等人工语言NLP概述6什么是中文?¢中文是联合国六种工作语言之一¢是中国56个民族所使用的主语言¢世界上五分之一以上人口的主语言¢中文汉字是中国30种文字中使用最广的文字¢方块汉字是其基本表现形

4、式¢汉字是象形字¢汉字代表一种文化NLP概述7汉字是一个大字符集《说文解字》(东汉):9353字《玉篇》(南朝)收录16,917字《广韵》(宋代)收字26,194字《字汇》(明朝)收录33,197字《康熙字典》(清朝)收录47,043字《汉语大字典》(1992年)5.6万《中华字海》(1994年)8.6万NLP概述8汉字的个数和频度¢GB2312-80:6763汉字频度表────────┰─────────┰────────┰─────────按频度排列前N字┃占总出现字数百分比┃按频度排列前N字┃占总出现字数百分

5、比────────╂─────────╂────────╂─────────N=1┃4%┃N=2048┃>98%N=20┃>16.7%┃N=3072┃99.7%N=32┃>21%┃N=3838┃99.9%N=300┃>65%┃N=5177┃99.99%N=600┃>81%┃N=6209┃99.993%────────┸─────────┸────────┸─────────NLP概述9汉字的音¢汉字的读音一般可以分为声母和韵母,声母21个,韵母35个¢5种声调,分别为阴平(─),阳平(/),上声(ˇ),去声(\),

6、以及轻声¢汉字的字音或音节共有400多种¢一千二百多个音调节¢同音字现象普遍NLP概述10汉字的字形¢二维图形结构¢三个层次:汉字-部件-笔划¢笔划通常分5类:点、横、竖(直)、撇、折?(弯)¢各种字典由于检索法不同,部首的个数也不同,从一百多个到六百多个都有。部首的判断也存在着二义性¢部首及笔划构成汉字的方法可分为三类:¢离:例如“旦、八、阳、音”等¢接:例如“人、且、石、刀”等¢交:例如“力、右、内”等¢一般汉字编码部件拆分的优先顺序为离、接、交NLP概述11汉语的特点¢汉语是大字符集的意音文字¢汉语词与词之间

7、没有空格¢汉语的同音词较多¢汉语没有形态变化¢汉语的语法研究尚未规范化¢汉语的语言学知识的量化与形式化工作滞后NLP概述12什么是处理¢处理是指对信息的接收、存储、转化、传送和发布等等操作¢分级:字级处理、概念处理和智能处理¢智能处理的主要研究领域:自然语言理解、计算机视觉、机器人学及知识工程¢智能的未来发展,将会对知识库、专家系统、推理系统和神经网络等综合应用,达到能够模拟人类比较复杂的思维和行为NLP概述13语言处理的两个层次¢字符处理(输入、存储、输出等)¢内容处理(词语切分,词性标注,结构分析,意义理解,推

8、理,翻译……等等)NLP概述14内容层的信息处理¢形态丰富的语言(inflectinglanguage):处理难¢形态不丰富的语言(analyticlanguage):处理更难汉语英语老师都来了Allprofessorscamehere.张老师都来了EvenProfessorZhangcamehere.编辑工作很难Editingisverydifficult

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。