语料库和语料库建设

语料库和语料库建设

ID:23080540

大小:66.00 KB

页数:6页

时间:2018-11-04

语料库和语料库建设_第1页
语料库和语料库建设_第2页
语料库和语料库建设_第3页
语料库和语料库建设_第4页
语料库和语料库建设_第5页
语料库和语料库建设_第6页
资源描述:

《语料库和语料库建设》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、语 料 库 和 语 料 库 建 设一、           什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins&Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是

2、“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。语料库具有以下特征

3、:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词

4、汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。二、           语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期,在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手

5、进行的“英语用法调查”(SurveyofEnglishUsage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》 ( AGrammarof ContemporaryEnglish )和《英语语法大全》(AComprehensiveGrammaroftheEnglishLanguage)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料

6、库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并不能确切的反映语言能力。2、语料的不充分性。他们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有可能的句子,因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库(BrownCorpus),1961年由纳尔逊(F.Nelson)和库切拉(H.Ku

7、cera)建立。布朗语料库容量为100万词,收集了60年代有代表性的美国英语语料,语料选自各种出版物,建库时照顾到了各种文体的平衡,严格按照随机原则抽样,是一个标准语料库。布朗语料库是第一个现代语料库,它对于后来的语料库的发展具有重要的影响。1975年,JanSvartvik开始创建伦敦——隆德语料库(London—LundCorpus),这两个语料库堪称现代语料库的开山鼻祖。20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了生机,迅速得到发展。语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。在英国语言学研究中,实证主义从弗斯

8、到韩礼德再到辛克莱一直被

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。