基于动态流通语料库的现代汉语词语研究

基于动态流通语料库的现代汉语词语研究

ID:36261268

大小:298.05 KB

页数:55页

时间:2019-05-07

基于动态流通语料库的现代汉语词语研究_第1页
基于动态流通语料库的现代汉语词语研究_第2页
基于动态流通语料库的现代汉语词语研究_第3页
基于动态流通语料库的现代汉语词语研究_第4页
基于动态流通语料库的现代汉语词语研究_第5页
资源描述:

《基于动态流通语料库的现代汉语词语研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于动态流通语料库的现代汉语词语研究北京语言大学应用语言学研究所张 普Zhangpu@blcu.edu.cnTel:008610-82303034Fax:008610-82300365主要内容动态语料库流通度词语研究动态语料库与共时语料库相对而言,是历时语料库,是对语言的变化进行检测和监测的语料库。特点:语料是动态的语料是历时的语料是与时俱进、不断更新的语言知识滞后 无法反映大规模真实文本词语克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、数字化、VCD、WTO、CEO、因特网、网民、网虫、上网、

2、下载、消毒软件、泡沫经济、环保工程、高新技术、知识创新、纳米技术、现代远程教育、高致病性禽流感、H5N1、扑杀、叮当村、群死群伤、公投、勇气号、高官、蒜农、危改、拆迁、房改房、3加1、3改4、退2进3、市话、高检、扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、千禧、两会、禁放、按揭、套牢三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟、本拉登、科索沃、法轮功、申奥、奥组委APEC、克林顿、布什、反恐、世界杯、黑哨菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、太阳裙、透明装、人体彩绘、

3、人体艺术、酷毖、很in、美白、净白、柔嫩、双赢、人气、另类年龄的“代沟”生理年龄的“代”在延长社会年龄的“代”相对稳定语言年龄的“代”在缩短改变语言的时间观共时时间观历时时间观相对时间观——共时中有历时和历时中有共时共时语料库的历时观察香港城市大学“共时语料库”95-05观察:大哥大--手提--手持--移动电话--手机互联网--因特网关于“非典”的例子2003年2月28日,46岁的世界卫生组织(WHO)传染病专家乌尔巴尼博士在河内一个华裔美国商人约翰尼·陈身上发现了一种非常规病毒,引起这种疾病的病毒与以往

4、导致感冒、肺炎等疾病的病毒完全不同,他称之为“非典型肺炎病毒”,并随即向世界卫生组织报告,世界卫生组织建议称这种疾病为“严重急性呼吸系统综合症”。18天后,乌尔巴尼死于自已一个月前发现的疾病——“严重急性呼吸系统综合症”。关于“非典”的例子2002年11月:非典型肺炎第一个病例,佛山市。2003年1月:第一次报告病例,SARS是一个新的病毒,河源市。2003年1月后,发现SARS病情在中山、佛山、广州市出现了,我们把它命名为非典型传染性肺炎。2003年2月11号,我们向世界卫生组织驻北京代表处报告了这个情

5、况,世界卫生组织在2月14号发行的流行病记录周刊当中,把它称为SARS。世界卫生组织(WHO)在3月15日新公布的名称已正式定为“严重急性呼吸道综合征”(SevereAcuteRespiratorySyndrome),简称SARS。3月21号,世界卫生组织开始使用SARS来称呼这个新的疾病。3月18日,德国和中国香港中文大学的实验室用电子显微镜拍到了一种病毒。5分钟之内,该病毒的照片就通过网站发布出来,以供其他实验室的科学家参考。3月21日晚上,香港大学的裴伟士向“全球病毒实验室”各成员发了一个电子邮件,

6、宣称从患者组织中分离了一种病毒,经电子显微镜下形态观察表现为冠状病毒。很快这项实验在美国、加拿大等其他成员实验室中重复出来。3月26日开始,中国参与了世界卫生组织全球协作网路。并且发现SARS的疾病病因可能是冠状病毒。关于“非典”的例子有“非典”字样的网页:39458个新浪有“SARS”的网页:12410个有“萨斯”字样的网页:1660个俞允海《非典还是SARS》关于“非典”的例子2003年入选动态流通语料库的14家主流报纸是(按音序排列):北京青年报北京日报北京晚报法制日报光明日报 环球时报今晚报南方周

7、末人民日报深圳特区报新民晚报羊城晚报扬子晚报中国青年报关于“非典”的例子14种报纸2003年1月1日-12月25日总文件数:562669个。即56万2千多个文本。总字数:426805177字。即约4亿3千万字。动态追踪发展历程 描述“非典”动态流通曲线的例子衡量动态语料库的四个标准是否是动态滚动语料语料库加工是否是动态的加工方法是否取得动态的加工结果(走势图)语料库的文本是否具有量化的流通度属性报告内容动态语料库流通度词语研究从频度到流通度使用度:提纲 13次  3类8篇哨棒 13次  1类1篇通用度: 

8、  频度   通用度猿人  52次  10.4花园  40次  23.7欣赏  35次  33.9T阶频度:A表 频度表下812;上532B表通用度表 总差:1344个词语 15%从频度到流通度重复  文本  历时  文本次数  散布  散布  流通频度  +使用度 +   +通用度 +   +   +流通度 +   +   +   +流通度的计算媒体的发行量:流通量(thevolumeof circulation)媒体的发行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。