关于汉语中介语语料库建设研究

关于汉语中介语语料库建设研究

ID:34352547

大小:46.50 KB

页数:7页

时间:2019-03-05

关于汉语中介语语料库建设研究_第1页
关于汉语中介语语料库建设研究_第2页
关于汉语中介语语料库建设研究_第3页
关于汉语中介语语料库建设研究_第4页
关于汉语中介语语料库建设研究_第5页
资源描述:

《关于汉语中介语语料库建设研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处云南蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向

2、目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规

3、律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。一、需求分析和框架设计...语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需

4、要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面:1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料

5、,这有利于语料库的快速建设与使用。3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。二、语料收集与加工收集和加工语料是最为重要的一项工作,要在语料库使用过程中不断收集、加工并添加到语料库内,而且需要...在整个语料库生存周期中都要持续不断的进行此项工作。本语料库中的语料基本上来源于云南几所高校的外国留学生在日常学习和生活过程中的作业、写作、试卷等,目前收集的都是书面文字,待日后语料库进行二期建设时也可以考虑扩充收集语音录制的口语语料。最初获得的未经进一步加工处理的语料一般称为生语料,要将生语料转变为语料库内能够使用的熟语料还需要经过录入、断句、分词、词性

6、标注等工作。语料加工的工作量是相当大的,如果完全人工完成的话,虽然质量能够得到保证,但效率太低,很难保证长期对数据的更新和维护。另外,由于中介语本身是留学生在学习第二语言过程中向正确的语言系统迁移的中间状态,所以中介语语料存在大量偏误,使用计算机进行自动加工获得的语料质量也较差。为得到较高质量的熟语料,同时又需要尽量减少人力成本,因此在语料加工环节我们采用了人工与计算机自动处理相结合的方式。具体操作上是先使用中科院计算所研发的汉语词法分析软件ICTCLAS进行初步加工,再由人工方式对该软件的分析结果进行校对和修正,最后输入语料库存储,这后两个步骤是通过我们自己编写的

7、软件来实现的。三、数据库的设计思路依据需求分析的结果,首先转换为不依赖任何具体机器的信息结构,即反映用户观点的概念模型,这是整个数据库设计的关键。一般语言的基本构成要素是词,由词构成句,再由句构成篇章,但汉语的最小构成元素却是汉字,因此设计语料库结构组成时需要将字、词、句和篇章都考虑到。另外,语料库数据的最大特点就是“真实”...,也就是说需要原样保存语料信息,包括语料中的大量偏误,这也是需要考虑的关键问题。依据汉语构成特点及中介语语料库的需求,使用E-R概念模型设计方法,得到语料库概念模型如下:汉字构成标准词构成偏误词正误关联语料句构成构成构成语料篇章作者撰写

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。