中文分词算法 之 基于词典的逆向最大匹配算法

中文分词算法 之 基于词典的逆向最大匹配算法

ID:37556047

大小:861.79 KB

页数:16页

时间:2019-05-25

中文分词算法 之 基于词典的逆向最大匹配算法_第1页
中文分词算法 之 基于词典的逆向最大匹配算法_第2页
中文分词算法 之 基于词典的逆向最大匹配算法_第3页
中文分词算法 之 基于词典的逆向最大匹配算法_第4页
中文分词算法 之 基于词典的逆向最大匹配算法_第5页
资源描述:

《中文分词算法 之 基于词典的逆向最大匹配算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文分词算法之基于词典的逆向最大匹配算法杨尚川在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示:publicstaticListsegReverse(Stringtext){Stackresult=newStack<>();while(tex

2、t.length()>0){intlen=MAX_LENGTH;if(text.length()

3、Word.substring(1);}result.push(tryWord);//从待分词文本中去除已经分词的文本text=text.substring(0,text.length()-tryWord.length());}intlen=result.size();Listlist=newArrayList<>(len);for(inti=0;i

4、体差异如下图所示:1中文分词算法之基于词典的逆向最大匹配算法杨尚川-下面看看正向和逆向的分词效果,使用如下代码:publicstaticvoidmain(String[]args){Listsentences=newArrayList<>();2中文分词算法之基于词典的逆向最大匹配算法杨尚川sentences.add("杨尚川是APDPlat应用级产品开发平台的作者");sentences.add("研究生命的起源");sentences.add("长春市长春节致辞");sentences.ad

5、d("他从马上下来");sentences.add("乒乓球拍卖完了");sentences.add("咬死猎人的狗");sentences.add("大学生活象白纸");sentences.add("他有各种才能");sentences.add("有意见分歧");for(Stringsentence:sentences){System.out.println("正向最大匹配:"+seg(sentence));System.out.println("逆向最大匹配:"+segReverse(sentence));

6、}}运行结果如下:开始初始化词典完成初始化词典,词数目:427452最大分词长度:16正向最大匹配:[杨尚川,是,APDPlat,应用,级,产品开发,平台,的,作者]逆向最大匹配:[杨尚川,是,APDPlat,应用,级,产品开发,平台,的,作者]正向最大匹配:[研究生,命,的,起源]逆向最大匹配:[研究,生命,的,起源]正向最大匹配:[长春市,长春,节,致辞]逆向最大匹配:[长春,市长,春节,致辞]正向最大匹配:[他,从,马上,下来]逆向最大匹配:[他,从,马上,下来]正向最大匹配:[乒乓球拍,卖完,了]逆向最

7、大匹配:[乒乓球拍,卖完,了]正向最大匹配:[咬,死,猎人,的,狗]逆向最大匹配:[咬,死,猎人,的,狗]正向最大匹配:[大学生,活象,白纸]逆向最大匹配:[大学生,活象,白纸]正向最大匹配:[他,有,各种,才能]逆向最大匹配:[他,有,各种,才能]正向最大匹配:[有意,见,分歧]逆向最大匹配:[有,意见分歧]3中文分词算法之基于词典的逆向最大匹配算法杨尚川下面看看实际的分词性能如何,对输入文件进行分词,然后将分词结果保存到输出文件,输入文本文件从这里下载,解压后大小为69M,词典文件从这里下载,解压后大小为4

8、.5M,项目源代码托管在GITHUB:/***将一个文件分词后保存到另一个文件*@author杨尚川*/publicclassSegFile{publicstaticvoidmain(String[]args)throwsException{Stringinput="input.txt";Stringoutput="output.txt";if(args.length==2){inpu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。