基于逆向匹配的中文分词算法

基于逆向匹配的中文分词算法

ID:42646641

大小:153.96 KB

页数:4页

时间:2019-09-19

基于逆向匹配的中文分词算法_第1页
基于逆向匹配的中文分词算法_第2页
基于逆向匹配的中文分词算法_第3页
基于逆向匹配的中文分词算法_第4页
资源描述:

《基于逆向匹配的中文分词算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、程序语料为加入了词性标注的人民日报1998年1月份的语料库。算法主要分为两部分:处理语料,产生词典和测试数据;进行分词以及分析结杲。原始数据如图1:19980101-01-001-001/m19980101-01-001-002/m19980101-01-001-003/m19980101-01-001-004/m19980101-01-001-005/m19980101-01-001-006/m19980101-01-001-007/m19980101-01-001-008/m19980101-01-001-009/m19980101-01-001-010/m1

2、9980101-01-001-011/m19980101-01-001-012/m19980101-01-001-013/m19980101-01-001-014/m19980101-01-001-015/m19980101-01-001-016/m迈向/v充蒜/v希望/n的/u新/a世纪/n/w中共中央/说总书记/n、氏国家/n主席/n江/nr(/w—九九七年12月氏31S/t同胞/nfil/k在/p199在/p在/p199实现/v台湾/ns坏顾/v一九九八年/t新年C泽民/nr+二月/t三+-B/t)/w,/w中共中央/nt总书记/n、朋友/n们/k、Z女士/

3、n们/k>/w先生/n们/I来临/v之际/f是/v中国/ns/w/w/w国家/n主席/n)/w1998年/七7年/t、/wS/r—/m年/q中/fS/r—/m年/q中/f年/t,/w中国/ns人民/n将/d蒜怀信心/I地/u开创/v祖国/n的/u完全/a统一/vn、/w是/v海内外/s全体/n是/v中国/ns领土/n不可分割/I的/u—/m部分/n。/w全球/n,/w日益/d密切/a的/u世界/n经济/n联系/vn、/w我/r+分/m高兴/a地/u谨发展/vn历史/n上/f非常/d重要人中国/ns的/u改革/vn开放/vn中国/ns的/u夕卜交/n工作/vn和,取

4、得中【7T[中国/ns政府/rdrrt将/d继续/v坚持/v奉行/v独立自主/i的/u在/p这/r薜旧迎新/I的/u美好/a时刻/n,/w我/r祝/v大家/r谢谢/v!/w(/w新华社/nt北京/ns42月/t31B/t电/n)/w步骤如F:1.处理语料1・1对语料进行处理,删除段前标号。结果如图2。迈向/y充蒜/站希望/n的/u新/a世纪/n/w—九九八年/tifi年/t讲话/n(/w附/y中共中央/讯总书记/n、/w国家/n主席/n江/a泽民/nr(/w—九九七年/七12月/t31曰/t同胞/n们/k、Z在/p1998年/I1997年/t•/w图片/n1/m张

5、/q)在/p这/r—/m年/q中/f在/p这/r—/m年/q中/f1998实现/v台灣/ns坏顾/y+二月/t三+—日")/w,/・中共中央/rrt总书记/n、心国家/n主席/n江/nr泽民/nr朋友/nfll/k、W女士/n们/kx/w先生/n们/k:/w来临/»之际/f是/v中国/ns»/w»/w、/・我/r+分/m高兴/a地/u通过/p[中央/rt发展/vn历史/n上/f非京/d更要/a的/u很/d和/c现代化/vn中国/ns的/u改革/vn开放/vn中国/ns的/u外交/n工作/vn人民/n将/d荷怀信心/I地/u开创/v统一/vn»/w是/v海内外/s全

6、体/n8年/t新年/t广福/vn电台/n]rrt年/c迈辺高层在/p通迥人民/n不/d平凡/令的/u—/m建设/vn继续/v向前/v取得/v7/u重要/a成果/no/w通过/p年/t,/w中国/ns祖国/n的/u芫全/a是/v中国/ns领土/n不可分割/I的/u—/m部分/n<>/w全球/n、/w日益/d密切/a的/u世畀/rx经济”联系/vn新/a的/u业缰/n。/・尽管/c我们/r中国/ns人/n的/u共同/b心匱/n<>/w芫成/v祖国/n统一/vn,/・是/v大势所迤/,/w日騎月异/i的/u科技/n进步/vn,/w和平/n外交/n政策/n•/w在/p和平

7、共处/I[中国/ns政府/n]nt将/d维续/v坚持/v奉行/v独立自主/i的/u美好/a时刻/n,/w我/r祝"大家/r新年/t快乐/a,/w家庭/n幸福/a!/w北京/ns12月/t北京/ns12月/t在/p这/r薛旧迎新/1的/u谢谢/v!/w(/w新华社/"谢谢/y!/w(/w新华社/讯31B/t电/n)/w31B/t电/n)/w1.2删除语素标记,结杲如图3。中共中央/总书记/X/国冢/壬席/江/澤民/(/一九九七年/十二月/三十一日/)/42月/310/,/中共中央/总书记/、/国家/主席/江/澤民/发喪/1998年/新年/讲话/«/I同胞/们/、/朋

8、友/们/、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。