汉语中介语文本词语级错误的自动查错研究及其实现——AECIT

汉语中介语文本词语级错误的自动查错研究及其实现——AECIT

ID:36794802

大小:1.07 MB

页数:35页

时间:2019-05-15

汉语中介语文本词语级错误的自动查错研究及其实现——AECIT_第1页
汉语中介语文本词语级错误的自动查错研究及其实现——AECIT_第2页
汉语中介语文本词语级错误的自动查错研究及其实现——AECIT_第3页
汉语中介语文本词语级错误的自动查错研究及其实现——AECIT_第4页
汉语中介语文本词语级错误的自动查错研究及其实现——AECIT_第5页
资源描述:

《汉语中介语文本词语级错误的自动查错研究及其实现——AECIT》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学位论文独创性声明本人郑重声明:l、坚持以“求实、创新”的科学精神从事研究工作.2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。3、本论文中除引文外,所有实验、数据和有关材料均是真实的。4、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果.5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。作者签名:日期:学位论文使用授权声明本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版;有权将学位论文用于菲赢利目的的

2、少量复制并允许论文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。作者签名:日期:中文摘要随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的硬究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面

3、向普通的中文文本1,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统kECIT(AutomaticErrorCheckerforInterlanguageTexts),采用窗口移动的方式,一次读取一

4、个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值‘进行隔断的方式,从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段,所以本文着眼于词语一级的自动查错研究。最终,以合理搭配阈值为3.0为例,AECIT得到了召回率73.7%,精确率50%,误报率50%的结果,并且随着阈值的调整,召回率和精确率会分别上升和下降,以满足不同用户的需要。关键词:自动校对;中文信息处理;中介语语科;互信息;本文中的普通文本均指母语为汉语人士写出来的中文文本,与中介语文本相对2Abstract■iththe

5、developmentofcontemporarypublishingindustry。theloadofhuman-collationkeepsincreasingleadingtothedemandofautomatic—collatiomAutomatic—collationis∞importantandattractiveresearchfieldinnaturallanguageprocess(NLP)whosemaingoalisalleviatingtheloadofpeoplewhoworkoncollatingbook

6、sortexts.Duetothespecificcharacteristicsofinterlanguagetexts,theyshowmorecomplexitythantheCO/FtⅢOatextsinoriginalandpresentationoftexterrors.TheChineseautomatic-collationsystemsNowexistedareusedtoprocessco.onChinesetextswrittenbynativeChinesespeakers.Thairtrainingandtest

7、corporaarehomogeneous.Tllispapert订todevelopasystemusedtoprocessthosetextswrittenbypeoplewhosemothertongueisnotChinese,Tocomparethetwokindofsystem,thereexistedmoredifficultiesinthelatterthantheforlerinbothresearchandappiication,suchastrainingandtestcorporaarenothomogeneou

8、s,morecategoriesoferrors。hardtolabel,etc.Ourresearchusetheinter-languagecorpusbuildbyDepartmentofPrepar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。