国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf

国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf

ID:57743141

大小:188.06 KB

页数:5页

时间:2020-03-27

国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf_第1页
国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf_第2页
国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf_第3页
国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf_第4页
国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf_第5页
资源描述:

《国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、载《国家社会科学基金项目成果选介》,2009年出版国家社科基金项目《计算语言学方法研究》成果简介冯志伟执笔项目批准号:03BYY019项目名称:计算语言学方法研究成果形式:专著成果字数:498,234字是否出版:因为有一些问题还不够成熟,还需要进一步研究,作者建议暂不出版项目负责人:冯志伟(教育部语言文字应用研究所)课题组成员:杨泉,胡凤国,张和友计算语言学(computationallinguistics)是用计算机研究和处理自然语言的一门新兴边缘学科,涉及语言学、计算机科学、数学、心理学等部门

2、。在计算语言学的发展过程中,提出了很多方法,这些方法,在理论上有一定的深度,在实践上有实用价值,值得引起我们语言学研究者的重视。但是,国内计算语言学界对于这些方法的研究基本上是支离破碎的,缺乏系统的总结,更缺乏理论上的分析。本课题在全面调查国内外计算语言学各种方法的基础上,对这些方法进行了系统的描述,并在理论上进行了深入的分析和概括,总结出规律性的具有方法论意义的认识。其主要内容分为七个部分。一、计算语言学的学科定位和主要方法这一部分首先从计算机处理自然语言的过程、计算语言学的范围以及计算语言学的

3、历史三个角度来考察计算语言学的学科定位问题。从计算机处理自然语言的过程来考察它的学科定位,是从纵的角度来讨论;从计算语言学的范围来考察它的学科定位,是从横的角度来讨论。通过这种纵横交错的考察,我们对于计算语言学的学科定位就可以在共时的平面上得到比较清晰的认识。然后,我们再从计算语言学的历史来考察,也就是从发展的角度来讨论,这样,我们对于计算语言学的学科定位就可以在历时的平面上得到比较清晰的认识。对于计算语言学方法的研究,可以从方法论的角度来论述,也可以从语音、词汇、形态、句法、语义、语用研究中使用

4、的方法来论述。从方法论的角度,计算语言学方法可以分为基于规则的方法(rule-basedapproach)和基于统计的方法(statistics-basedapproach)两个方面。基于规则的方法是理性主义的方法,基于统计的方法是经验主义的方法。这两种方法实际上并不是完全对立的,它们各有利弊,而且目前这两种方法有合流的倾向,它们正在相互结合起来,取长补短,相得益彰。本项目如果把基于规则的方法和基于统计的方法分割开来研究,很多问题将会纠缠不清,不便于论述。因此,本项目不采取这样的论述方式。本项目采

5、取按照语言学学科分类的方式,从语音、词汇、形态、句法、语义、语用研究中使用的计算语言学方法来加以论述。分别讨论语音的自动处理方法、词汇的自动处理方法、形态的自动处理方法、句法的自动分析方法、语义的自动处理方法、语用的自动处理方法。在论述时,首先对于各个领域内计算语言学方法的发展历史进行简要的回顾,然后,再对各种具体的方法进行论述和分析。这样,计算语言学方法的研究便有了一个可靠的历史背景,我们对于各种方法的来龙去脉也就更加清楚了。二、语音的自动处理方法文本-语音转换(Text-to-Speech简称

6、TTS)的核心任务是以文本中词的序列作为输入,产生声学波形作为输出。自动语音识别(AutomaticSpeechRecognition,简称ASR)的核心任务是以语音的声学波形作为输入,产生单词串作为输出。这一部分详细讨论了语音自动处理的主要方法:贝叶斯公式(Bayesformala)、噪声信道模型(NoisyChannelModel)、N元语法(N-gramGrammar)、隐马尔可夫模型(HiddenMarkovModel,简称HMM)等。这些方法成为了计算语言学中各种统计方法的基础。在标音方

7、面,本项目采用了美国DARPA提出的ARPABET代替普通的国际音标IPA,这种新的标音方法与ASCII码一致,便于在计算机上使用,也便于撰写电子文本和印刷排版。三、词汇的自动处理方法语言中的词汇具有高度系统化的结构,正是这种结构决定了单词的意义和用法。这种结构包括单词本身的固有的与上下文无关的语义特征以在文本中单词与单词之间语义关系特征。前者是单词的静态语义特征,后者是单词与单词之间的动态语义特征。对于单词的静态语义特征,这一部分从知识本体(ontology)的高度出发,分析了美国普林斯顿大学研

8、制的词网(WordNet),指出了其优点和不足之处,并介绍了我国学者提出的Ontol-MT通用知识本体系统,说明了Ontol-MT在机器翻译和歧义消解中的应用。对于单词与单词之间的动态语义特征,这一部分介绍了美国语言学家Fillmore研制的框架网络(FrameNet)。框架网络的中心思想是词的意义的描述必须与语义框架相联系。框架是信仰、实践、制度、想象等概念结构和模式的图解表征,它为一定言语社团中意义的互动提供了基础。由于多义词是任何语言中都普遍存在的现象,而多义词中诸多的词义分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。