/V;;-J)!""%字典与统计相结合的中文分词方法翟凤文,赫枫龄,左万利(吉林大学软件学院,吉林长春*&""*!)/$0123:41532!01"> /V;;-J)!""%字典与统计相结合的中文分词方法翟凤文,赫枫龄,左万利(吉林大学软件学院,吉林长春*&""*!)/$0123:41532!01" />
字典与统计相结合的中文分词方法

字典与统计相结合的中文分词方法

ID:5391177

大小:309.74 KB

页数:8页

时间:2017-12-08

字典与统计相结合的中文分词方法_第1页
字典与统计相结合的中文分词方法_第2页
字典与统计相结合的中文分词方法_第3页
字典与统计相结合的中文分词方法_第4页
字典与统计相结合的中文分词方法_第5页
资源描述:

《字典与统计相结合的中文分词方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第!’卷第(期小型微型计算机系统[I3!’WI)(!""%年(月VCWCXVCRYG;Z;>/V;;-J)!""%字典与统计相结合的中文分词方法翟凤文,赫枫龄,左万利(吉林大学软件学院,吉林长春*&""*!)/$0123:41532!0123)637)-87)95摘要:提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题)本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过

2、程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统:;<-592的分全率达(()#!=,准确率达(+)#!=)关键词:中文分词;基于字典的分词;基于统计的分词;交集型分词歧义中图分类号:>?&(*)*!文献标识码:@文章编号:*"""$*!!"(!""%)"($*’%%$"%!"#$%&%’()*+%,-%$./.#($0/&%*($1#2.#($/)3/$*+./.#&.#2&AB@CD-5E$4-5,B/D-5E$

3、325E,AFG,15$32(!"#$%&’()"**(+(,,-*-./.-0(’1-$2,)3&.+435.*&""*!,)3-.&)45&.)/2.:?HIJIK-810-LMI8.1K-8I5829L2I51HN25L-EH1L-842LMKL1L2KL29K)>M-0-LMI87K-KLM-K-E0-5L1L2I50-LMI8.1K-8I5829L2I$51HN25LM-<2HKLKL-J158LM-5-0J3INKK-E0-5L1L2I5.1K-8I5KL1L2KL29KLIH-KI3O-10.2E

4、72LN15875H-E2KL-H-84IH8K3-

5、LI8-1342LMLM-75H-E2KL-H-84IH8K)>M-25L-EH2LNI<:K<-592;NKL-04M29M2KH-132Q-8I5LM-0-LMI8JHIJIK-8.NLM2KJ1J-H2K(()#!=,LM-1997H19N2K(+)#!=)6%37()*&:9M25-K-4IH8K-E0-5L1L2I5;9M25-K-4IH8K-E0-5L1L2I5.1K-8I5829L2I51HN;9M25-K-4IH8K-E0-5L1L2I5.1K-8I5KL1L2KL29130-LMI8;9HIK

6、K25E10.2E72L2-K259M25-K-4IH8K-E0-5L1L2I58引言词典相结合的分词方法的研究更少)针对这种情况本文提出了一种字典与统计相结合的中文分词方法,并根据该算法实中文分词是中文信息处理中的一个基础部分,中文信息现了:;<-592(:29L2I51HN158;L1L2KL29K.1K-8RM25-K-4IH8KK-E$处理要从三个层面上对中文进行处理:字、词、句)在汉语中,0-5L1L2I5)分词系统)词是最小的语言单位,只有处理好词层面的问题,才能更好地处理句层面的问题,词层面的研究

7、是句层面的基础)词层面的9字典与统计相结合的中文分词方法问题最重要的就是中文分词问题,对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,相对来讲,中文的词本文提出的字典与统计相结合的中文分词方法可以分为与词之间是没有分隔符的,因此若想建立基于词的索引,就需两步,第一步是基于字典的处理:通过基于字典的正反向最大要专门的技术,这种技术也就是中文分词)匹配算法[!$&]对待分词的文本进行处理,处理单元为句子,对中文分词中遇到的主要问题[*]是未登录词和歧义问题)于每一个句子,分别进行正反向最大匹配,获得正反

8、向切分结中文分词方法中机械分词法主要有基于统计和基于字典两类果;第二步是基于统计的处理:首先,对第一步获得的正反向分词方法,基于统计的分词方法和基于字典的分词方法各有切分结果分别进行基于统计的单字词处理,然后,利用规则所长,各有所短,基于统计的分词方法的特点是处理速度快,“名词S名词T名词”分别对经过单字词处理的正反向切分结能够识别高频未登录词,并且不易出现歧义问题,缺点是分全果进行优

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。