soundex语音匹配算法综述

soundex语音匹配算法综述

ID:5265273

大小:231.68 KB

页数:4页

时间:2017-12-07

soundex语音匹配算法综述_第1页
soundex语音匹配算法综述_第2页
soundex语音匹配算法综述_第3页
soundex语音匹配算法综述_第4页
资源描述:

《soundex语音匹配算法综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、!三竺万方数据//0引言Soundex语音匹配算法综述★--5立东(广东外语外贸大学词典学研究中心,广州510420)摘要:对Soundex语音匹配算法的原理、缺陷和改进进行综述.分析一个版本的Soundex改进算法的源代码,指出Soundex适合用于模糊匹配挖掘和预处理.简要介绍Soundex及其改进算法目前的应用领域,及其在自然语言处理领域的潜在用途。关键词:Soundex;语音编码;语音匹配:模糊匹配语音匹配算法是根据发音来检索词的算法.一般用于按英语发音来索引姓名。语音匹配算法的原始目标是要解决哪个姓氏与X的发音匹配(相似)这样的问题IlJo英语中的许多姓氏有变体拼写形

2、式.例如:Smyth是Smith的一个变体拼写形式。绝大多数人看到Smyth这个姓氏知道它是Smith的另一种拼写形式。但是根据拼写检索信息时.计算机程序就不会把Smvth当作Smith。如果根据单阋的发音而不是拼写编码或生成代码.然后再根据语音代码进行比对.就可以发现像Smith和Smyth这类有两种拼写或两种以t拼写变体形式的词具有相似或者相同的发音。语音(模糊)匹配算法的应用解决了英语姓氏变体的检索问题。1Soundex语音匹配算法的原理Russel按照英语字母的发音特点把它们分了组。具有类似发音机制的字母被分在同一组。例如:字母D和T被分在同一个语音组.因为它们的发音相

3、近。Russel为每组字母分配了对应的数值代码.还使用了一套附加规则来进行语音编码【2.q。经典的Soundex编码规则与Rus8el的原始设计方案非常相似。所做的改动包括:删除字母H,W和Y:合并字母M和N:删除所有不是位于词首的元音字母;不再删除位于词尾的G、H、S、或Z。这些改动主要是基于以下对英语发音的理解[61:元音对单词读音的贡献少于辅音。所以可以忽略不在词首的元音;字母H,W和Y对绝太多数单词的读音贡献非常小.如果它们不在词首也可以忽略:像M和N这样的辅音可结成发音相似的字母组:单词中排列在一起的发音相似的辅音,像NN、SS和MN.通常发音像一个辅音,从分析的角度

4、可将它们简化为一个辅音。Soundex算法的运作方式是保留姓氏的首字母并把其余部分中的每个字母按照对应关系转换成代表它所在语音组的数字代码,然后删除0(即,删除A、E、H、I、O、U、W、Y)并对相邻的重复的数字代码实施消重处理(先消重.再删除0是改进算法采用的步骤)。经典的Soundex语音代码与英语字母之间的映射或对应关系旧如表l所示。表1Soundex语音代码与英语字母的砷应关系SouadeI代码英语车母OA。E,H,I.0,U,W。YlB.F.P.V2C,G.J.K,Q.S.XZ3O,T4L5M.N6R通过对整个被检测英语单词应用这种映射或对应关系,就产生了该单词的语音

5、代码(Key)。Soundex语音★基金项目:国家社科基金项目(No。09BYY034)收稿日期:2010—03-23修稿日期:2010-03-25作者简介:马立东(1967-),男。河北定州人,副教授,研究方向为计算机辅助语料分析及计算机辅助词典编写、英语词汇学、词典学现代计算机2010.05囝万方数据\\、!三竺代码是同定长度的四位代码(单词的首字母后加三个数字,不足四位时用数字0填充)。发音相近或相同的单词通常会有相同的代码。例如:Smith和Smyt}l的Soundex代码都是$530。不仅如此.Smythe,Smin。Shmidt,Snith,Snyth.Snythe

6、等姓氏的Soundex代码都是$530。这就意味着,用户输入Smith这个单词之后,在数据库中搜索的是Smith的Soundex语音代码s530,而不是Smith这个拼写形式。匹配的结果就是该数据库中所有语音代码为$530或含有语音代码$530的姓氏或姓名。2Soundex语音匹配算法的缺陷Soundex有可能将发音完全不同的单词弄到一起。例如:white和Wood的Soundex代码都是W300;society和scud的Soundex代码也是相同的.都是$230。正如发音不同的单词可能会有相同的Soundex代码。反过来的情况也有可能发生:发音相同的单词.包括同音异形异义词

7、,可能有不同的Soundex代码。一种情况是由于某些字母在单词中不发音而造成的。例如:Thompson中的P不发音.所以它与Thomson的发音相同。但是它们的Soundex代码却是不同的(分别是T512和T525)。也有可能是因为一些单词的首字母是不同的。例如:Clark(C462)和Klark(K462)的Soundex代码不同;cereal(C640)和serial($640)的代码也不一样。虽然Soundex好象可以匹配PH和F.因为H被忽略而P与F又被分在同一个语音组.但是当字母组

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。