统计机器翻译简明教程

统计机器翻译简明教程

ID:38584421

大小:588.00 KB

页数:37页

时间:2019-06-15

统计机器翻译简明教程_第1页
统计机器翻译简明教程_第2页
统计机器翻译简明教程_第3页
统计机器翻译简明教程_第4页
统计机器翻译简明教程_第5页
资源描述:

《统计机器翻译简明教程》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计机器翻译简明教程 兼谈相关工具的使用何中军2007年11月提纲系统结构前处理词语对齐短语抽取解码后处理参数训练评测词语对齐训练语料库训练语料库为双语语料库格式不固定,可以是文本格式,xml格式等等要求必须句子对齐back语料预处理目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐步骤:汉语分词工具:ICTCLAS汉语全半角转换功能:将A3区的全角字符转换为半角字符程序:A2B命令行:A2Binputoutput英语分词工具:Brill英语首字母小写还原功能:将英语语料库

2、中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。程序:Truecase命令行:Truecaseinputoutput处理后训练语料库双语语料库汉语切词高新技术产品出口37.6亿美元。全半角转换高新技术产品出口37.6亿美元。英语切词TheexportofHigh-techProductsReached3.76billionUSdollars.theexportofHigh-techProductsReached3.76billionUSdollars.大小

3、写转换back词语对齐GIZA++词语对齐词语对齐后处理添加句首句尾标记词语对齐–GIZA++训练输入:汉语文本,英语文本,一行一句,句子对齐chineseenglishplain2sntchinese.vcbenglish.vcbchinese_english.sntmkclschinese.vcb.classesenglish.vcb.classeschinese.vcb.classes.catsenglish.vcb.classes.catsGiza++*.A3.final…plain2snt

4、:统计单词数,格式转换命令行./plain2snt.outchineseenglish2上海7383浦东764开发3895与3724chinese.vcbFormat:单词编号单词单词出现次数123456782345678910112124131415chinese_english.sntFormat:每个句对占3行句子出现次数汉语句子英语句子mkcls:单词聚类命令行:./mkcls-n1-pchinese-Vchinese.vcb.classesopt-n:表示训练迭代的次数,一般迭代1次-p:

5、要聚类的文本,一行一句(已分词)-V:输出信息opt:优化运行1925年171925日47chinese.vcb.classesFormat:单词词类2:1月份,83%,AmocoCadiz,_,ⅲ,百分之三十九点四3:+,TC,百二十万,百六十万,百五十万chinese.vcb.classes.catsFormat:词类:单词,单词GIZA++:词语对齐命令行:./GIZA++-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e-S:源语言单词表

6、-T:目标语言单词表-C:源语言—〉目标语言句子对-O:输出文件夹运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件:#Sentencepair(1)sourcelength7targetlength16alignmentscore:4.99368e-28thedevelopmentofShanghai'sPudongisinstepwiththeestablishmentofitslegalsystemNULL({1381113})上海({4})浦东({56})开发({2})与({1

7、0})法制({1516})建设({})同步({791214})*.A3.final,每句对3行:对齐概率目标句子源语言句子GIZA++对齐几点说明一般双向训练,汉语->英语,英语->汉语训练流程:./plain2snt.outchineseenglish./mkcls-n1-pchinese-Vchinese.vcb.classesopt./mkcls-n1-penglish-Venglish.vcb.classesopt./mkdirc2e./mkdire2c./GIZA++-Schinese.v

8、cb-Tenglish.vcb-Cchinese_english.snt-Oc2e./GIZA++-Senglish.vcb-Tchinese.vcb-Cenglish_chinese.snt-Oe2c词语对齐后处理对GIZA++的词语对齐进行优化工具:WordAlign命令行:WordAlignc2e.A3.finale2c.A3.finaloutput输入:汉语到英语方向的.A3.final文件和英语到汉语方向的.A3.final文件输出:.xml格式的对齐文件词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。