基于实例的中文分词系统设计与实现

基于实例的中文分词系统设计与实现

ID:35064086

大小:6.79 MB

页数:84页

时间:2019-03-17

基于实例的中文分词系统设计与实现_第1页
基于实例的中文分词系统设计与实现_第2页
基于实例的中文分词系统设计与实现_第3页
基于实例的中文分词系统设计与实现_第4页
基于实例的中文分词系统设计与实现_第5页
资源描述:

《基于实例的中文分词系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-化一^?抑'苦玄品革::,心马;--歲巧己进马巧苗;巧。^与巧瓦—"?‘v-.Vg'.^…一…-*%-■?"—-一?—'—?、-■—,/■?^.?一??-V??、;I二.^―一 ̄ ̄—一-W??—^Ty或?皆—"..,.'京忘拓^,?,—'if*wv,,-"w。,*■?.■'.v:r::;二二;:v二:^■>;…一…*__<.:_—.;.;.^'、’古进-’二;品芯:;:::^;1k:;f:^:;::::忠;:,二过…二巧尹 ̄.卓V.''?*’’'.^^£^5貫>。方忠试田,记^?^^另:;:::

2、;:::二^?門;,苗;門.:,巧歲蒜1ih,'.v,1illw"ir ̄r ̄j""^—''AW:S?!Si.?,.:::;己:^:立::;;::;;:-WVV*〇*Wl々AV;y>rsr>:ij打***A、iA?.,..毛i钟成*葦LOQINAUNFCHIVERSITYOFELECTRONICSCIENCEAN田TECHNO田Y专业学位硕±学位论文MASTERTHESISFORPROFESSIONALDEGREE:薄养,麵il謹靈議顯|纖》詞識%W慕嗎二.—讓-纖.

3、—1.;;::^气.处旅雜側—MBI觀;.—'‘嗎论二=.-*文题目基乎鴻例的中文分词系统设计与实现...专业—--———■■—'■■-*———学化类别工程硕丈?化学者号201322060524—姓名鄰宗萊:指导教-::W师汪支勇教授■■‘■違■,-..巧_■'?:.-,:一.—-,.-.^-- ̄-rJ,T.■=■占.-.....、;_.其-;:-'?;---山W.--:?.一二山.一r_r:-

4、._/分类号密级注1UDC学位论文基于实例的中文分词系统设计与实现(题名和副题名)郑宗荣(作者姓名)指导教师汪文勇教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称计算机技术提交论文日期2016.3.29论文答辩日期2016.6.15学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。DesignandImplementofAnExample-basedChineseWordSegmentationSystemAMasterThesisSubmittedtoUniversityo

5、fElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:ZHENGZongrongSupervisor:Prof.WANGWenyongSchool:SchoolofComputerScience&Engineering摘要摘要词语通常被认为是自然语言处理的最基本单位。不同于英语或者大部分的西方语言,在许多亚洲语言(如中文、日文、泰文)中,句子是由连续的字符串序列构成,词语间没有显式的间隔符(如空格)。因此,中文分词是中文自然语言处理必不可少的首要任务。所谓中文分词,就是把连续的中文文本划分为单词、

6、术语或者其它语言学单位的过程。只有这些基本的语言单位被正确地切分出来,才有可能进行后续的分析或者处理。现有的中文分词器已经达到很高的精确度。以SIGHAN的PKU语料库为例,?1测值已经超过95%[1,2]。然而这些最好的分词器大多依赖于庞大的训练数据、复杂的统计模型或者特定的语言模型,往往无法应用于不同的语言。目前仍然没有一种分词算法可以有效地刻画人类识别词语边界的能力。训练语料库是最好的分词参考,如何尽可能地利用训练语料库,从中尽可能多地提取出有用的分词信息是解决这个问题的关键。论文提出一种全新的基于实例的中文分词算法,在此基础上设计并实现了基于实例的中文分词系统。相比于已有分

7、词算法,该算法直接利用训练语料库进行分词。它不需要显式的分词词典,不需要事先的训练过程,也不依赖于任何语言知识,而是直接回到人类识别词语的方式上,因此可以应用于不同语言。由于语料库规模有限,不可避免存在数据稀疏问题,长句子容易丢失分词结果。因此,该算法首先将待分词句子划分为若干个长度为?的子句,称为?子句,然后对这些?子句进行两个阶段的处理:提出实例精确匹配方法在训练语料库直接找到?子句的分词结果,对于找不到匹配的?子句提出比例类推的分词方法,即先模糊匹配找到近似字符

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。