词语对齐及短语抽取模块的设计与实现课件.ppt

词语对齐及短语抽取模块的设计与实现课件.ppt

ID:57034958

大小:843.50 KB

页数:20页

时间:2020-07-27

词语对齐及短语抽取模块的设计与实现课件.ppt_第1页
词语对齐及短语抽取模块的设计与实现课件.ppt_第2页
词语对齐及短语抽取模块的设计与实现课件.ppt_第3页
词语对齐及短语抽取模块的设计与实现课件.ppt_第4页
词语对齐及短语抽取模块的设计与实现课件.ppt_第5页
资源描述:

《词语对齐及短语抽取模块的设计与实现课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、词语对齐及短语抽取模块的设计与实现词语对齐模块的实现实现原理具体实例使用说明实验结果词语对齐模块的实现原理基本思想Giza++实现了基本的IBM统计翻译模型,但得到的对齐结果忽略了多对多及一对多的情况。为了解决Giza++词语对齐的问题,通常利用双向对齐的结果进行优化。优化的方法采用了以两个方向对齐结果的交集为中心点,检查其上下左右(grow)及对角(diag)相邻的8个点,若在并集中,则作为扩展的对齐点加入对齐序列中。词语对齐模块的实现代码如何实现Heuristicalignment(Koehnetal

2、.,2003,Pharoah的训练文档)Neighboring=((-1,0),(0,-1),(1,0),(0,1),(-1,-1),(-1,1),(1,-1),(1,1))Align_Intersect=intersect(e2f,f2e);Align_Union=union(e2f,f2e);Heuristic();Heuristic():forenglishworde=0…..enforchinesewordf=0…..fnif(ealignedwithf)foreachneighboringpoi

3、nt(e-new,f-new):if((e-newnotalignedandf-newnotaligned)and(e-new,f-new)inAlign_Union)addalignmentpoint(e-new,f-new)词语对齐模块的具体实例使用方法的说明输入:文件:Giza++双向训练的对齐结果文件:从汉语到英语方向,从英语到汉语方向(默认文件为当前目录下:f2e_giza_alignment.txt,e2f_giza_alignment.txt)参数选择:在程序运行初始,可以选择输出5种不同的

4、优化结果作为参数:F2E(汉语到英语的对齐结果)E2F(英语到汉语的对齐结果)Union(两个方向取并集)Intersect(两个方向取交集)Heuristic(将交集点向其周围的“邻居”进行扩展)输出:按照词语对齐的语料库的格式定义,以xml文件输出。(默认文件为当前目录下:****_Alignment.xml)使用方法的说明注意事项:在进入Giza++训练之前,已将中文或英文大于100个词的句对过滤。所以在该模块默认的最大句长是100(全局变量MAX).在进行参数选择时,要按照提示中指定格式进行输入,

5、要包含前面的代码和具体类别。如:5)Heuristic。在产生对齐结果的过程中,每处理1000句,屏幕显示一个‘.’。具体细节详见代码中注释。词语对齐实验结果训练集:IWSLT05_training(2万句对)测试集:IWSLT05_test(506句)三种对齐方法结果对比:短语抽取模块短语抽取的目的模块定义实现原理:生成最大似然词汇化翻译表短语抽取计算概率一些说明模块定义输入文件:词语对齐的语料库输出文件:短语翻译概率表功能说明:从词语对齐的语料库中抽取双语短语,并计算翻译概率实现原理本模块基本实现了P

6、HARAOH的短语抽取方法。基本思想:利用词对齐生成最大似然词汇化词典;抽取短语;对每一个短语对计算4个概率。生成最大似然词汇化翻译表没有直接使用GIZA++的原因:有的词条在GIZA++词典中找不到,会导致一些短语对的词汇化概率为0;GIZA++词典中没有w(c

7、NULL)和w(e

8、NULL)这两个概率值。生成最大似然词汇化翻译表生成思路:将对齐的词对直接抽取出;如果某个词没有与之对齐的翻译词,就认为它与NULL对齐;计算同现次数,按照下面公式分别计算出w(e

9、f)和w(f

10、e),从而直接生成词汇化翻译

11、表。短语抽取抽取条件:短语必须与词对齐相容抽取方法:提取对齐矩阵中的所有以对齐点为顶点的矩形,条件是与矩形所在行范围内的源词对齐的目标词也都在这个矩形的列范围内,反之亦然。短语抽取一个实例:短语抽取可以抽取出的短语为中国

12、

13、

14、China's

15、

16、

17、0-00-1中国化工

18、

19、

20、China'schemical

21、

22、

23、0-00-11-2中国化工工业

24、

25、

26、China'schemicalindustry

27、

28、

29、0-00-11-22-3中国化工工业保持

30、

31、

32、China'schemicalindustrymaintains

33、

34、

35、

36、0-00-11-22-33-4中国化工工业保持稳定

37、

38、

39、China'schemicalindustrymaintainssteady

40、

41、

42、0-00-11-22-33-44-5中国化工工业保持稳定增长

43、

44、

45、China'schemicalindustrymaintainssteadygrowth

46、

47、

48、0-00-11-22-33-44-55-6化工

49、

50、

51、chemical

52、

53、

54、0-0化工工业

55、

56、

57、chemicalindustry

58、

59、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。