汉语词法分析和句法分析技术综述

汉语词法分析和句法分析技术综述

ID:36635209

大小:736.30 KB

页数:26页

时间:2019-05-13

汉语词法分析和句法分析技术综述_第1页
汉语词法分析和句法分析技术综述_第2页
汉语词法分析和句法分析技术综述_第3页
汉语词法分析和句法分析技术综述_第4页
汉语词法分析和句法分析技术综述_第5页
资源描述:

《汉语词法分析和句法分析技术综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一届学生计算语言学研讨会(SWCL2002)专题讲座汉语词法分析和句法分析技术综述刘群北京大学计算语言学研究所中国科学院计算技术研究所liuqun@ict.ac.cn引言本文主要介绍一些常用的汉语分析技术。所谓语言的分析,就是将一个句子分解成一些小的组成部分(词、短语等等)并了解这些部分之间的关系,从而帮助我们把握这个句子的意义。语言的研究,一般而言存在四个层面:词法层、句法层、语义层和语用层。同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析和语用分析。本文主要介绍汉语的词法分析和句法分析技术。这两种技术是

2、汉语分析技术的基础,而且已经发展得比较成熟。文中也会少量提及语义层面和语用层面的一些问题,但不会做深入的探讨。汉语是一种孤立语(又称分析语),与作为曲折语和黏着语的其他一些语言相比,汉语在语法上有一些特点,仅仅从形式上看,这种特点主要体现在以下几个方面:1.汉语的基本构成单位是汉字而不是字母。常用汉字就有3000多个(GB2312一级汉字),全部汉字达数万之多(UNICODE编码收录汉字20000多);2.汉语的词与词之间没有空格分开,也可以说,从形式上看,汉语中没有“词”这个单位;3.汉语词没有形态上的变化(或者说形态

3、变化非常弱),同一个词在句子中充当不同语法功能时,形式是完全相同的;4.汉语句子没有形式上唯一的谓语中心词。这些特点对汉语的分析造成了一定的影响,使得汉语分析呈现出和英语(以及其他一些语言)不同的特点。不过也不能过分夸大这种不同。我认为,那种以为汉语完全不同于英语,因此有必要重新建立一套分析体系的想法是没有道理的。从现有的研究看,汉语分析所使用的技术和其他语言分析所使用的技术并没有本质的不同,只是应用方式上有所区别(主要体现在词法分析方面)。而且从应用的效果看,没有证据表明,这些技术用来分析汉语比用来分析英语效果更差。本

4、文结合我们自己的一些工作,比较全面的介绍一下汉语词法分析和句法分析中所使用的各种技术。1汉语词法分析前面说过,汉语在形式上,并没有“词”这一个单位,也就是说,汉语的语素、词、短语、甚至句子之间(词也可以直接成句,称为独词句),都没有明确的界限。这是不是说,汉语就没有必要做词法分析,可以直接做句法分析呢?实际并不是这样。因为如果这样做的话,会导致句法分析的搜索空间急剧膨胀,以致无法承受。实际上,根据我们的统计,未定义词在汉语中真实文本中所占的比例并不大,可见绝大部分词都是可以在词典中找到的,如果这些词都要从头开始分析,势必

5、给句法分析带来太多的负担。不过汉语的词法分析与英语(或其他屈折型语言)的词法分析有很大不同。就英语来说,采用确定的有限状态自动机就已经能基本解决问题,而对于汉语词法分析来说,需要更为复杂的计算工具。就问题的复杂性而言,我认为汉语的词法分析大致相当于英语的词法分析和基本短语分析之和。1.1汉语词法分析的任务汉语词法分析包括一下几个任务:1.查词典2.处理重叠词、离合词、前后缀3.未定义词识别a)时间词、数词处理b)中国人名识别c)中国地名识别d)译名识别e)其他专名识别4.切分排歧5.词性标注1.2数据结构:词图(Word

6、Graph)对于一个汉语句子,如果把两个汉字之间的间隔作为结点,把一个汉语词作为连接两个结点的有向边,那么我们就可以得到一个无环有向图:中国人民万岁S中国人民万岁E国人中国人根据这个数据结构,我们可以把词法分析中的几种操作转化为:1.给词图上添加边(查词典,处理重叠词、离合词和前后缀);2.寻找一条起点S到终点E的最优路径(切分排歧);3.给路径上的边加上标记(词性标注);1.3词典查询与重叠词、离合词和前后缀的处理词典查询主要考虑分词词典的数据结构与查询算法的时空消耗问题。在词典规模不大的时候,各种词典查询算法对汉语词

7、法分析的效率整体影响并不大。不过当词典规模很大时(几十万到上百万数量级),词典查询的时空开销会变得很严重,需要详细设计一个好的词典查询算法。(孙茂松,2000)一文比较详细的总结了汉语词法分析中使用的几种词典查询算法。(Aho&Corasick,1990)提出的算法(简称AC算法)实现了一种自动机,可以在线性的时间里用一组关键词去匹配一个输入字符串,(Ng&Lua,2002)一文对AC算法中提出的自动机(实际上就是一种词典索引的组织方式)进行了改进,可以快速实现输出汉语句子的多种切分候选结果。对词典查询算法感兴趣的同学可

8、以去查阅这几篇文章,这里不再做详细的介绍。汉语重叠词的重叠方式有很强的规律,处理起来并不困难。例如汉语的双字形容词的重叠现象主要有三种:AABB、ABAB、A里AB。遇到这种形式的词,只要还原成词语原形AB并查词典即可。汉语词的前后缀不多,处理也不困难,通过简单的规则,即可这里不做介绍。离合词的处理稍微复杂一些。现在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。