2004命名实体识别评测大纲

2004命名实体识别评测大纲

ID:29002037

大小:54.50 KB

页数:8页

时间:2018-12-15

2004命名实体识别评测大纲_第1页
2004命名实体识别评测大纲_第2页
2004命名实体识别评测大纲_第3页
2004命名实体识别评测大纲_第4页
2004命名实体识别评测大纲_第5页
资源描述:

《2004命名实体识别评测大纲》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2004年度命名实体识别评测大纲一、评测对象本次评测的对象是现代汉语(包含大陆的简体文本和港澳台地区的繁体文本)的命名实体(包含命名实体、时间表达式及数量表达式)识别系统中的核心技术。二、评测内容本次评测主要是对识别的正确率进行评测。1.命名实体识别评测本次测试命名实体、时间词、数字词的识别。具体词类的判断规则参考附录中的说明。(1)命名实体(ENAMEX)命名实体是文本中的固有名称、缩写及其他唯一标识。子类包括组织名(ORGANIZATION),人名(PERSON),地名(LOCATION)。例如:“世卫组

2、织”、“张三丰”、“淮海路甲一号”。(2)时间表达式(TIMEX)时间表达式为文本中的相对或绝对时间短语。子类包括日期(DATE)和时间(TIME)。例如:“1993年3月”、“早晨5点30分”。(3)数值表达式(NUMEX)本次评测中的数值表达式特指文本中出现的用于表示数值的数字短语。例如:“300”、“30%”、“五倍”。2.评测语料的选材原则本次评测将选择近期流通广泛的图书、报纸、期刊和网络等载体作为语料的来源,以期反映当代汉语的最新面貌,涉及到的主题有政治、经济、体育、交通、旅游、教育等。语料的选择考

3、虑到其平衡性、科学性和代表性。三、评测方法1.评测方式本次评测为现场评测。采用自动评测与人工辅助相结合的方式进行。2.评测步骤:(1)预先提供测试样例(2)在评测单位统一提供的评测环境上安装被测系统(3)评测单位给出测试数据(4)运行被测系统,得出测试结果(5)评测单位运行自动测试程序,统计出评测结果(6)评测单位事后对自动评测结果进行分析和核对,对其中难以进行自动评测的内容进行人工分析确定,并公布评测结果3.评测指标分别对简体和繁体文本的识别进行打分。每种文本又分别对命名实体、组织名、地名、人名、时间表达式

4、、数值表达式进行打分。评测采用三个指标:正确率、召回率、F值。各指标定义如下:(1)正确率表示识别出的词语中出现在标准结果中的词语比例,计算公式如下:(2)召回率表示标准结果中被正确识别出的词语比例,计算公式如下:(3)F1值是正确率和召回率的调和平均数,计算公式如下:4.输入输出文件格式被测系统读入一个脚本文件,脚本文件含若干行,每行由三个部分组成,分别为繁体简体(S/T)、输入文件名、输出文件名。举例如下:Ssourcea1.txtresultr_a1.txtTsourceb1.txtresult

5、r_b1.txt输入文件为一组简体及繁体的标准的纯文本文件,编码方式为Unicode。输出文件为标准的文本格式,编码方式为Unicode。内容是在原文的基础上对识别出的词语进行标注。识别出的词语标记方法如下。利用以下标记括起识别出的命名实体、时间表达式、数值表达式:<大类TYPE=”子类”>字符串其中,大类名为ENAMEX、TIMEX、NUMEX之一。ENAMEX的子类包括ORGANIZATION、PERSON和LOCATION。TIMEX的子类包括DATE和TIME。NUMEX没有子类。以下是输出

6、文件的样例:格林最近的状态非常不错,两周前便曾在洛杉矶跑出过986的好成绩,这次,借助每秒3.7米的风速,他追平了蒙哥马利

7、”>2002年9月在巴黎创造的男子米世界纪录。四、评测环境本次评测环境包括:操作系统为Windows2000,硬件配置不低于:P41GHz,256M内存,40GIDE硬盘。附录命名实体识别规范1命名实体识别任务命名实体任务由三个子任务组成(命名实体、时间表达式、数字表达式)。被标注的表达式为命名实体(组织、人、地点)、时间(日期、时间)及数量。1.1所有类型通用的规则(1)带有省略成分的多个实体多个

8、实体连写,有共用成分的时候标记为一个实体,例如“南北美”、“20到30倍”、“凌晨三四点钟”、“二十七八岁”、“1~2成”、“6月3、4号”。没

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。