基于改进最大匹配算法的中文分词粗分方法.pdf

基于改进最大匹配算法的中文分词粗分方法.pdf

ID:56029005

大小:415.42 KB

页数:5页

时间:2020-06-19

基于改进最大匹配算法的中文分词粗分方法.pdf_第1页
基于改进最大匹配算法的中文分词粗分方法.pdf_第2页
基于改进最大匹配算法的中文分词粗分方法.pdf_第3页
基于改进最大匹配算法的中文分词粗分方法.pdf_第4页
基于改进最大匹配算法的中文分词粗分方法.pdf_第5页
资源描述:

《基于改进最大匹配算法的中文分词粗分方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1242014,50(2)ComputerEngineeringandApplications~~算机工程与应用基于改进最大匹配算法的中文分词粗分方法周俊,郑中华,张炜ZHOUJun,ZHENGZhonghua2,ZHANGWei1.华中科技大学模具技术国家重点实验室,武汉4300742.中国人民大学教育学院,北京1008723.安徽博约信息科技有限责任公司,合肥2300881.StateKeyLabofMoldTechnology,HuazhongUniversityofScienceandTechnology,Wuhan430074,China

2、2.SchoolofEducation,RenminUniversityofChina,Beijing100872,China3.AnhuiBoryouInformationTechnologyCo.Ltd,Hefei230088,ChinaZHOUJun,ZHENGZhonghua,ZHANGWei.MethodofChinesewordsroughsegmentationbasedonimprovingmaximummatchalgorithm.ComputerEngineeringandApplications,2014,50(2):124-

3、128.Abstract:ChinesewordsroughsegmentationandambiguityresolutionaretwofundamentalprocessesofChinesewordsegmentation.Undertheintroductionofgeneralizedtermandinducedwordset,amethodusedforChinesewordsroughsegmentationisproposedbasedonmaximummatchingmethod.ItexecutesChinesewordseg

4、mentationundertheprincipleofthelongestgeneralizedtermmatching,andrecognizestheoverlappingambiguitiesbyutilizinginducedwordset.Itseg—meritsChinesesentenceswithoutanyambiguityrapidlyandaccurately,detectsandmarksambiguitiesby100percentinthosesentenceswhichhaveambiguities,whichwil

5、lsimplifytheprocessofambiguityresolutiontothemaximumextent.TheresultoftheexperimentonPeople’SDailycorpusinJanuary1998whichcontains1.6millionChinesecharactersshowsthemethodiseffectivebothinspeedandaccuracy.Keywords:Chinesewordssegmentation;maximummatch;generalizedterm;inducedwo

6、rdset摘要:中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。关键词:中文分词;最大匹配;广义词;诱导词集文献标志码:A中图分类号:TP391.12doi:10.3778~.issn

7、.1002.8331.1203.0002l引言词的序列,即中文分词。目前技术较成熟、使用较广的汉语语言是由连续汉字组成的序列,汉字是汉语的中文分词方法主要包括机械分词法和基于统计的分基本构成元素,即词素,然而汉语中具有完整语义信息词法”。。的最小单元是词,且汉语自然语言的句法、语义和语境机械分词法是基于词串匹配的分词方法,其优点是分析,静态、动态语义网构建,以及搜索引擎倒排索引建分词速度快,算法简单且易于实现,但是不具备歧义处立等技术的处理和分析对象都是词。因此,中文自然语理能力,分词效果较差;基于统计的分词法则通过统计言处理的第一步就是将由汉字连

8、续组成的字串切分为语料库中汉字共现频率等相关信息,定量描述汉字之间基金项目:国家自然科学基金(No.70773052)。作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。