中介语语料库建设中的语言错误标注方法

中介语语料库建设中的语言错误标注方法

ID:36783310

大小:217.96 KB

页数:5页

时间:2019-05-15

中介语语料库建设中的语言错误标注方法_第1页
中介语语料库建设中的语言错误标注方法_第2页
中介语语料库建设中的语言错误标注方法_第3页
中介语语料库建设中的语言错误标注方法_第4页
中介语语料库建设中的语言错误标注方法_第5页
资源描述:

《中介语语料库建设中的语言错误标注方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、暨南大学华文学院学报2007年第3期中介语语料库建设中的语言错误标注方法李斌(南京师范大学文学院,江苏,南京210097)[关键词]中介语语料库建设;语言错误标注;可扩展置标语言[摘要]中介语语料库的建设是对外汉语教学研究中的重要内容。留学生的各种语言错误,尤其是偏误信息,可以为研究者提供可靠的统计数据。然而,针对留学生文本中标注各种错误的方法尚没有较好地研究。本文从语料库加工流程的角度,探讨了这一问题,并借助XML(可扩展置标语言)提出了错误标注的具体实现方法。[中图分类号]H08[文献标识码]A[文章编号]1671-5306(2007)03-0055-05ErrorTa

2、ggingMethodinInter-languageCorpusConstructionLIBin(SchoolofChineseLanguageandLiterature,NanjingNormalUniversity,Nanjing,Jiangsu210097,China)Keywords:inter2languagecorpusconstruction;languageerrortagging;XMLAbstract:Theinter2languagecorpusconstructionisanimportantissueinthestudyofteachingCh

3、ineseasasecondlanguage1Thelanguageerrorsofforeignstudents,especiallytheinterlingualtransfererrorsarethereliablestatisticaldataforinvestigation1However,thereexistedlittleresearchdoneonthemethodoftagginglanguageerrorsintext1Thispaperistodiscusstheproblemandputforwardapracticalmethodoftagging

4、languageerrorsincorpustaggingprocedurebyXML(ExtensibleMarkupLanguage).01引言1995年,北京语言大学发布了中国大陆第一个留学生中介语语料库———汉语中介语语[1]料库系统(储诚志、陈小荷,1993)。从此,基于中介语语料库的对外汉语教学研究拉开[2][3][4][5]了帷幕(崔永华,2003;高立群,2001;李大忠,1996;马跃,2003;孙德金,[6][7]2002;肖奚强,2002)。此后10年间,国内加工建设了一批中介语语料库,如南京师[7][8]范大学留学生语料库、哈萨克族学生汉语中介语语料

5、库系统(武金峰,2002)、HSK动[9]态作文语料库(张宝林等,2004)等等。综观这些语料库,在语料的抽样方法、篇章属性、录入整理方面都较为严整,为教学研究提供了坚实的基础。作为基础资源,留学生的各种语言错误,尤其是偏误信息,可以为研究者提供大量的统计数据。如汉字的书写错误、词汇错误、句法格式错误等等。然而,在对语料中留学生语言[收稿日期]2007-03-06[作者简介]李斌,(1981-),男,南京师范大学文学院博士生,主要研究方向为计算语言学。·55·中介语语料库建设中的语言错误标注方法错误的标注上,各系统基本还停留在对错误的简单索引上,缺乏深层次的标注规范。本文就

6、语料库中的语言错误的标注问题展开讨论。为了方便论述,这里把语料错误(录入过程中的错误)和语言错误(留学生所犯的各种语言错误,包括偏误)作一个区分。在语料库的建设过程中,首要的任务是以原始材料为依据,对生语料,即仅仅是录入而没有做特殊处理的语料,进行校对和质量检查,把语料错误降到最低。然后再在原始的基础上进行各种加工处理,如分词、词性标注、句法结构标注等等。留学生在文本中各层面所犯的各种错误,如字词层面(错别字、缺字、拼音字、用词不当等)、句法层面(把字句、被字句、动补结构等),是中介语语料库特殊的、最为重要的标注内容,影响到语料库的使用价值。语言错误中既有常见的笔误,也有母

7、语影响造成的偏误,两者都是教学研究中的重要对象。11现有的语言错误标注方法中介语语料库因其特殊的言语作者,存在着大量的语言错误。错误标注,是进行自动标注(分词、词性标注、句法分析)的先决条件。现有的中介语语料库,都有语言错误的人工标注。这里,以北京语言大学的中介语语料库为例。该语料库收录了740位留学生的1731篇语料,共44218句,1041274字,进行了分词、词性标注及一些特殊的语言学标注。全部语料均登录有作者姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。