国际辞书现代化技术新理念-辞书语料数据化

国际辞书现代化技术新理念-辞书语料数据化

ID:31776298

大小:59.00 KB

页数:5页

时间:2019-01-18

国际辞书现代化技术新理念-辞书语料数据化_第1页
国际辞书现代化技术新理念-辞书语料数据化_第2页
国际辞书现代化技术新理念-辞书语料数据化_第3页
国际辞书现代化技术新理念-辞书语料数据化_第4页
国际辞书现代化技术新理念-辞书语料数据化_第5页
资源描述:

《国际辞书现代化技术新理念-辞书语料数据化》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、国际辞书现代化技术新理念:辞书语料数据化摘要在辞书现代化技术方面,国内辞书界的主要精力仍放在语料库的建设和使用上。然而,国际研究重点已转向语料的深加工和数据库建设,因为他们认识到,编者要想梳理海量语料并从中找到有用的东西绝对是一件既耗时又费力的事情。文章结合国际辞书现代技术的经验,阐述辞书现代化的新理念一一辞书语料数据化,即应用语言学研究的新成果和数据挖掘技术,在海量的语料中提取词典所需的各种有效语言数据,把语料库变为词汇/词典数据库,从而大大提高语料使用和词典编纂的效率。关键词语料库数据化词汇特性速描语料库模式分析以前,“辞书现代化技术”使人联想

2、最多的是借助语料库编词典,或者是把纸质词典装进计算机或芯片。在国内,以语料库为代表的辞书现代化技术的研究方兴未艾,检索“中国知网”发现,近五年来有关语料库的论文有2341篇,与词典或辞书相关的有1011篇,仅《辞书研究》就刊登有关辞书语料库的论文20余篇。在近年召开的中国辞书学会辞书编纂现代化专业委员会历次年会上,语料库的功能、特色、建设和管理,以及语料应用等个案研究都是重要议题之-O而在国际词典学的会议上,有很多新理念已经取代了这类语料库的话题,其中之一就是语料库的深加工或数据化研究及开发。一、辞书语料数据化的新理念在语料库发展的初级阶段,信息数

3、字化程度很低,语料完全靠人工录入,建设成本很高,因此语料库的规模都不大。但人们对语料的评价和期望都十分高,似乎有了语料库,词典的一切问题都解决了:释义和义项划分有了依据、例证的采集可以变得轻松、词典的编纂效率可以大大提高,等等。而实际情况是,每天都会产生大量的电子信息,其数量越来越庞大,语料库的建设变得很容易;而另一方面,在大规模语料库环境下,海量语料往往会让词典编者无从下手,甚至会大大增加其工作量,影响辞典编纂的进度。因此,西方词典学家早在上世纪八九十年代就开始了语料的数据化加工,早期的有WordNet、MindNet、FrameNet等,近期有

4、WordSketchEngine(词汇特性速描)、DANTE(英语词汇数据库)和CorpusPat—ternAnalysis(CPA:语料库模式分析)等。这些词汇数据库大多是在语料库的基础上,利用数据挖掘技术从海量的语料中提取有用的词汇数据,以描述词汇的各种语言属性。下面将对近期的几个语料数据化项目做一介绍。二、词汇特性速描1•词汇特性速描的主要功能词汇特性速描(WordSketchEngine)是建立在语料库基础上的词汇语言属性的处理和描述平台,对词汇语法和搭配特征进行全面、详尽的归纳和展现。主要功能有:(1)一定分布模式中的词汇语料检索。用户可

5、以查询语词、短语、搭配和语法模式,并根据各种规则区分出不同文本来源(口语、书面语等)的相关索引行。(2)词汇的处理和特征速描,如词位化处理、词类标注、数据输入格式、搭配结构和搭配特征、语法关系的定义与表述等。(3)同义词或近义词的检索和显示。根据语料库中大量的语法关系结构,利用统计分析和结构相似性的方法,自动生成近义词集合,譬如根据,(object,drink,wine),即可以把"beer”和“wine”看作近义词。(4)词汇速描的对比。当你查询近义词时,可以通过对比其释义和不同的语言属性来发现它们的区别特征,达到语义消歧的作用,以便正确理解和使

6、用。(5)语词搭配显著性的计算和描述。利用搭配词在语料库中各自出现的频率和共现频率及其关系来计算语词搭配关系的显著性。后来又吸收了互信息(MI,即mutual把语词informa一tion)的计算方法(Church&Hanks1989),搭配关系的显著性视为互信息I和频数对数(logjoingfrequency)之积,这种算法既便于词典编者发现互信息较高的语词搭配,同时也便于他们发现高频语词的搭配方式。2•词汇特性速描的方式速描系统包含多个语料库,各个语料库可单独运行。当进入查询界面后,首先选择语料库,然后在查询窗口输入要查询的词,如选择BNC(英

7、国国家语料库),输入deliver,就会弹出主显示页面,分页显示出deliver所有6368条索引行(每百万56.8条)。在显示框左边有一排功能链接键,包括''索引、词汇列表、词汇速描、同近义词、词汇速描对照”等。点击“词汇特性速描”,再次输入deliver,选择词类(动词),点击“显示词汇特性速描”便得到图1所示结果。图1显示出deliver的各种属性速描数据,共计17种关系,全面描述了词目词的语义角色,包括共现宾语(object)>主语(subject)、限定词(modifier)>and/or并列成分、接宾语小品词(parttrans)、不接

8、宾语小品词(partintrans)、一元关系(unaryrels)、介词词组(PP)、介词within短语(ppwith

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。