中文信息处理论文

中文信息处理论文

ID:17881150

大小:46.50 KB

页数:4页

时间:2018-09-08

中文信息处理论文_第1页
中文信息处理论文_第2页
中文信息处理论文_第3页
中文信息处理论文_第4页
资源描述:

《中文信息处理论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文信息处理学号:姓名:班级:时间:浅谈中文信息处理之汉语自动分词【摘要】:汉语自动分词问题是中文信息处理技术发展的一大热点也是一大难点,对于自动分词研究的出发点的不同,其自动分词方法也是不一。自动分词给我们的日常的生活带来了便利,但同时也尚有一些急需解决的问题存在。【关键词】:自动分词;中文信息处理;技术中文信息处理是第一次接触的一门学科,几个月的学习下来对它也有了初步的一些了解。4中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、信息学、声学等多种学科相关联的综合性学科。中文信息处理指的是利用计算机对汉语书面语形式和口语形式这两种信息进行加工,加工的结果

2、形成各种信息处理系统,实现中文的信息检索、语音识别、机器翻译等。简单的说,中文信息处理就是解决汉字和汉语输入和输出电子计算机的问题的一门学科。笔者认为中文信息处理这门学科与其它的综合学科一样,内容繁多复杂,有一定的难度和复杂性,因此,我就几个月来所学的内容、课本以及一些对中文信息处理进行研究的学者的观点谈谈自己对汉语自动分词的看法。众所周知,中文文本没有类似英文空格之类的标志来标示词的边界标志。由于汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词。所谓汉语自动分词,是把输入计算机的汉语词句自动切分为词的序列的过程。汉语自动分词的任务我们用

3、通俗的话来说,就是要由机器在中文文本中词与词之间自动加上空格。这样才能进行下一步的句法语义分析及处理。(一)自动分词方法根据对于自动分词研究的出发点的不同,目前较权威的观点来看大概可以归纳为三大类:基于词典的分词方法、基于统计的分词方法、基于AI的分词方法。我们上课所学的主要是第二种,即基于统计的分词方法。因此,这里我主要谈谈基于统计的分词方法,其它两类简要概括一下。1.基于词典的分词方法这种分词方法是前苏联专家在上个世纪50年代末提出来的。其基本思想是:事先建立一词库(词典),其中包含所有可能出现的词。对给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中

4、的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。这种分词方法又分为最大匹配法、逆向最大匹配法、设立切分标志法、逐词遍历匹配法、正向最佳匹配法和逆向最佳匹配法五大方法。 2.基于统计的分词方法上面我已经谈到,中文文本没有类似英文空格之类的标志来标示词的边界标志。也就是说,词与词之间没有显著的分隔标记。而基于统计的分词方法就有一大优点,即能够有效地自动排除歧义,能够识别新词、怪词,例如人名、地名等,解决了基于词典的分词方法的弊端。基于统计的分词方法是我们学习中文信息处理课程时主要讲的分词方法。这类方法的主要依据和

5、思想是:词是稳定的字的组合,4因此在上下文中,相邻的字同时出现的越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率就能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字的组合可能构成了一个词。北京大学计算语言学研究所在开发人民日报语料库时,确定了具体的切分规范。规范中的切分单位包括词和大于词或小于词而在文本中独立使用的固定短语、语素字、非语素字以及标点符号。对于切分单位从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以

6、上的若不是成语、习惯用语一般不看作是一个切分单位。切分规范以国家标准为基础,适当加以调整。但这种分词方法也有一定的局限性,会经常抽出一些共现频度高,但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差。3.基于AI的分词方法此类分词方法由于没有接触到,我也不了解,所以在此略过。(二)自动分词问题上面我简要介绍了三种自动分词方法,我们知道,尽管汉语自动分词取得了重大进展和突破,但仍然存在着大量的问题。比如汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点,使得要自由进行汉语自动分词,将会遇到一些困难与问题。

7、1.首先,就切分而言,中文原本没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特点使得自动分词十分困难。汉字造词可以是字,也可以是词甚至词组。造句的方式有以字造词,以词造词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。