计算机技术new

计算机技术new

ID:34368591

大小:591.81 KB

页数:5页

时间:2019-03-05

计算机技术new_第1页
计算机技术new_第2页
计算机技术new_第3页
计算机技术new_第4页
计算机技术new_第5页
资源描述:

《计算机技术new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、·信息技术与应用·信息领域汉英术语的特征及其在语料中的分布规律邢红兵%北京语言文化大学语言信息处理研究所中国科学院自动化研究所模式识别国家重点实验室&关键词:汉英术语;信息领域语料库;术语自动抽取摘要:在对’#(万字的信息领域专业文献中带英文注释的术语(汉英术语)进行了人工标记,然后利用程序提取汉英术语及其前界环境(前至少)个汉字)的工作基础上*本文对汉英术语的自身特征和前界环境进行了分析,目的是为术语的自动抽取提供规则及相关统计数据。+,-./,.-01230,.-34056784,-89.,8:54:;<=85343>?5@184=A3-B485,=3<:-C.4;-:BD5;:-

2、B0,8:528316!"#$%&#$’"#$$%&’()*+,<=85343>?5@184=,3-B4*/:-C.4;-:B85;:-B0,8:5;8316*0.,:B0,8/,3-B85:1:@E3F,-0/,8:5-.+/)01/,A=3-3430-/=8490436:5011<=85343>?5@184=,3-B4850’G#(>B8118:5><=85343>/=0-0/,3-/:-C.4;-:B85;:-B0,8:5;8316GH31093136011,=343,3-B4B05.011E*,=35I33F,-0/,36,3-B4I8,=,=38-;-:5,9:-63-%0,

3、1304,)<=85343/=0-0/,3-4&GD5,=84C0C3-,=34,-./,.-01;30,.-34056684,-89.,8:54:;,=343,3-B40-30501EJ36;:-;.-,=3-0.,:B0,8/,3-B85:1:@E3F,-0/,8:5G门学科中的专门用语。在专业领域文献中的术一、引言语的分布主要有三种情况:(!)术语处于特殊的随着计算机技术、网络技术的不断发展,信位置,比如关键词和注释中的术语等"(#)在新息领域的语言也表现出飞速的变化,这种变化出现的或者作者认为比较新、比较难懂的术语主要体现在词汇这个层面上,大量的新术语不后加上注释,并把注释用括

4、号括起来,有的作者断产生,一批旧的术语逐渐消亡。因此,基于动在自己的文章中第一次使用某个术语的时候,态更新语料库的术语抽取就显得很有必要,因还要对术语进行解释"($)术语无任何标记。对为我们可以通过抽取新的术语对已有的术语库上述各类分布的术语进行自动抽取的难度也不进行数量及频度的及时更新,这样就可以建成相同,第一类术语有明显的前界和后界,比较容一个动态更新的术语数据库。要实现对大规模易提取;第二类术语的右边界已经明确,需要确真实文本中术语的自动抽取,就必须研究术语定该术语的左边界;第三类术语自动抽取的难的特点及其在文本中的分布情况。术语是指一度最大,因为提取这类术语不仅要确定前界和!"

5、#!·信息技术与应用·后界,还要判断这个语言片段是术语还是一般新词。本文仅探讨属于第二类分布的术语自身(二)信息领域动态流通语料库的建设的特点及其在信息领域语料库中的分布情况,建设信息领域动态流通语料库主要是基于研究结果也可以为第三类术语的自动提取提供以下几个方面的原因:(")第三代语料库应该包各种规则和统计数据。括通用领域语料库和专业领域的语料库,其中任何一个领域都是可以独立的%(&)信息技术已二、信息领域动态流通语料库经渗透到各个领域,对其他学科甚至对人们的建设及术语动态更新日常生活都有较深刻的影响’信息领域的语言我们设想的术语动态更新是基于专业领域由于其媒体的种类繁多、发行量大、

6、借助网络等动态流通语料库的,这样的语料库属于第三代手段发行地区广、阅读率比较高’这样的语言最语料库。下面分别谈谈第三代语料库的特点及能体现第三代语料库动态性流通性的特点,因信息领域动态流通语料库建设的设想以及目前此,也就最具有代表性%(()各类报刊杂志的电的进展情况。子版本、网络版本的出现也使语料的获取变得相对比较容易,语料库的建设成本会大大降(一)关于第三代语料库低。信息领域语料库同样具有第三代语料库的语料库的发展已经历了第一代和第二代,典型特征:动态性和流通性。信息领域语料库目前正向第三代语料库发展。第三代语料库的的主要特征是:(")语料库中语料的数量将随时显著特征就是数量大、对语

7、料库的加工从词法间的推移而不断扩大%(&)每次扩充的语料都是级到句法级再到语义和语用级。但是这些还不流通度比较高的媒体的语料%(()全部语料按照是本质的变化。张普教授在"$$$年先后提出了时间顺序排列%())所有的文本均带有以下标“第三代语料库”、“语言知识动态更新”的设想,记:领域标记、文本的流通度、发表时间、媒体信并撰文进行了较为详细的论述。张普教授指息(包括媒体的类型、级别、名称等)、次类标记、出:我们提出的“动态流通语料库”是第三代语作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。