《词与词组分析》PPT课件

《词与词组分析》PPT课件

ID:41307175

大小:719.06 KB

页数:86页

时间:2019-08-21

《词与词组分析》PPT课件_第1页
《词与词组分析》PPT课件_第2页
《词与词组分析》PPT课件_第3页
《词与词组分析》PPT课件_第4页
《词与词组分析》PPT课件_第5页
资源描述:

《《词与词组分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、人工智能与机器翻译主讲:杨宪泽——单词与词组分析对于机器翻译研究来说,本章的第一任务是要建立语言的机器词典,这一机器词典是多语言的。例如各自的藏,英,汉语机器词库。单词与词组的处理与分析,对于汉语来说,首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点,不但可能用到规则推理,而且还可能用到语法分析,语义用分析,更详细的过程可以结合第六章等一起研究。词语分类和兼类的分析与处理是本章研究的又一重点。本章的最后将研究词处理的一些细节问题。第5章单词与词组的处理与分析人工翻译离不开词典,当然,机器翻译也离不开机器词典。机器词典也被称为电子词典,简称词典。机器词典的作用在机

2、器翻译中是最重要的,因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素---单词和词组。如何有效的组织、建立机器词典,如何更好地利用机器词典中包含的各种知识,是一个值得深入研究的课题。5.1机器词典概述5.1.1基于分析和转换的机器翻译方法机器词典的作用:(1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因此,只有尽可能的扩充机器词典的规模

3、,才可能使机器翻译系统更实用,更会被更多的行业、更多的人所接受。(2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量,就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。(3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工程的基础工作,它可以为知识系统提供一个基本的知识源。对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大量的专业词汇。因此,机器翻译系统的词典又可以分为通

4、用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器翻译系统的整体翻译速度。机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必须依据最长词语确定字段长度,而相当多的短

5、词语将浪费巨大的存储空间。所以,一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现。5.2自动分词汉语自动分词是我国计算机科学研究的重要课题之一,它是自然语言理解、自动翻译、电子词典等信息处理的基础性工件。所谓分词,就是要把一句话,一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部

6、交给计算机来作,就没有那么简单了。尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出了不少方法,它们各有优缺点,也可能是基于特定环境的。5.2.1典型的自动分词方法5.2.1.1正向最大匹配法和逆向最大匹配法正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。两法思

7、路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。A1:一条汉语语句分划成单一字符X1,X2,…,XM。A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字重复此工作,直至字符数为Lmax为止。A4:若实施A3查不到词,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。