自然语言处理大纲

自然语言处理大纲

ID:14228483

大小:49.50 KB

页数:5页

时间:2018-07-27

自然语言处理大纲_第1页
自然语言处理大纲_第2页
自然语言处理大纲_第3页
自然语言处理大纲_第4页
自然语言处理大纲_第5页
资源描述:

《自然语言处理大纲》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、课程编号:S0300010Q课程名称:自然语言处理开课院系:计算机科学与技术学院任课教师:关毅刘秉权先修课程:概率论与数理统计适用学科范围:计算机科学与技术学时:40学分:2开课学期:秋季开课形式:课堂讲授课程目的和基本要求:本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基

2、于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。课程主要内容:本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。1自然语言处理技术概论(2学时)自然语言处理技术理性主义和经验主义的

3、技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。2自然语言处理技术的数学基础(4学时)基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容3自然语言处理技术的语言学基础(4学时)汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。4分词与频度统计(4学时)5中

4、文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自动识别方法;词汇的频度统计及统计分布规律。以及词频统计、排序输出;二元对频度统计,统计结果浏览等实践内容。5语料库的多级加工(6学时)语料库的基本概念;国际国内主要语料库简介;语料库加工的主要步骤;词性标注的常用方法;主要句法分析算法简介;汉语语义标注的基本概念和常用方法;汉语语义词典Hownet介绍。以及如何组织语料库,如何对语料库进行字符串检索等实践内容。6基于统计的语言模型(4学时)N-g

5、ram统计语言模型的基本概念;构造统计语言模型的方法;数据平滑的常用算法;N-gram统计语言模型的应用及评价;现有的其他主要的统计语言模型。以及构造Bigram语言模型及good-turing算法实现等实践内容。7马尔可夫模型(4学时)马尔可夫模型的基本概念;马尔可夫模型几个基本问题及其解法;马尔可夫模型的几个常用算法;马尔可夫模型的应用(音字转换、词性标注)。以及隐马尔可夫词性标注器的实现等实践内容。8句法分析技术(4学时)基于语言学规则的句法分析技术;基于统计的句法分析技术;依存文法;概率上下文无关文法(PCFG);级联式有

6、限状态句法分析技术。9篇章理解技术(4学时)计算机自动文摘的基本理论与常用方法:文本的机器内部表示;文本分析技术;摘要提取技术;摘要生成技术。10问答式信息检索(4学时)问答式信息检索的基本概念;问答式信息检索的主要难点;问答式信息检索系统的系统构成;问答式信息检索的相关技术;文本分类技术简介;问答式信息检索的评测方法;TREC简介。以及VSM文本分类器设计等实践内容。课程主要教材:[1]ChrisManning&H.Schutze.FoundationsofStatisticalNaturalLanguageProcessing

7、.MITPress,1999[2]王晓龙,关毅《计算机自然语言处理技术》清华大学出版社,预计2004年[3]姚天顺,《自然语言理解—一种让机器懂得人类语言的研究》,清华大学出版社,2002.10主要参考文献:[1]边肇祺等.模式识别.清华大学出版社.1998.[2]董振东,董强,知网,http://www.keenage.com[3]冯志伟《计算语言学对理论语言学的挑战》,《语言文字应用》1992年第1期5[4]黄昌宁,中文信息处理中的分词问题,《语言文字应用》,1997,(1),71-78[5]黄昌宁(1993)《关于处理大规模

8、真实文本的谈话》,载《语言文字应用》1993年第2期。[6]刘开瑛,现代汉语自动分词系统中几个问题的讨论,计算机开发与应用,1998[7]刘源等,信息处理用现代汉语分词规范即自动分词方法,清华大学出版社,广西科学技术出版社,1994.[8]宋柔,关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。