鉴于中文自动分词系统的研究

鉴于中文自动分词系统的研究

ID:34818886

大小:1.62 MB

页数:63页

时间:2019-03-11

鉴于中文自动分词系统的研究_第1页
鉴于中文自动分词系统的研究_第2页
鉴于中文自动分词系统的研究_第3页
鉴于中文自动分词系统的研究_第4页
鉴于中文自动分词系统的研究_第5页
资源描述:

《鉴于中文自动分词系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中师范大学硕士学位论文中文自动分词系统的研究姓名:朱珣申请学位级别:硕士专业:计算机应用技术指导教师:何婷婷20040501⑧硕士学位论文MASTER’STHESIS摘要中文自动分词系统是利用计算机对中文文章进行自动分词、识别的计算机应用系统,它包括基本的自动分词方法、歧义处理和命名实体的识别等基本模块,其各部分相互依赖,共同决定该系统的质量、价值和应用水平。中文自动分词方法分为机械分词方法和非机械分词方法。最大正向匹配法、逆向最大匹配法和逐词遍历法是三种最基本的机械分词方法。另外八种机械分词法只是在基本分词方法的基础上采用了一些技巧,它们不是纯粹意义的机械分词方法。专家系统方法是一种基于

2、规则的分词方法,而神经元网络方法则将人工神经网络的基本原理应用于计算机汉语分词。根据国内外对自动分词方法的研究和一些实用系统的设计,本文给出了自动分词系统的理论模型CWSM:M(F,W,T,K)的概念,即机械分词方法+分词词典+汉语言文本+知识库,并介绍了自动分词系统的评价标准。分词过程中歧义的产生主要是由计算机分词产生的特有歧义、自然语言中的二义性歧义和由分词词库大小引起的歧义等三类组成。歧义字段可从三个方面进行分类。从分词的切分结果可分为两类:真歧义和伪歧义;从切分歧义所需的知识层次,可分为三类:语法歧义、语义歧义和语用歧义:从歧义字段的结构可分为交集型歧义字段和多义型歧义字段。交集型歧

3、义字段的切分可采用基于统计的方法和基于规则(词性)方法。对多义型歧义字段的处理分别从句法歧义、语义歧义和语用歧义三个方面进行。中文信息处理中,处理的最多的就是名词。特别是对专有名词的处理是中文自动分词中的又一个难点。本文分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别技术。对地名的识别则利用知识库和规则库,采用推理机制技术进行分析;对机构名称的识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。同时,简要分析了机构名称与人名、地名的关系。关键词:自动分词,歧义切分,姓名识别,机构名称识别,地名识别⑧硕士学位论文MASTER’STHESI

4、SABSTRACTChineseautomaticwordsegmentationsystemisacomputerapplicationsystem,whichmakeuseofcomputertoconductthewordsegmentationandidentificationforChinesearticles.Thesystemmainlyincludesautomaticwordsegmentationmodule,ambiguouswordsegmentationmoduleandspecialwordidentificationmodule,andthequality,va

5、lueandapplicationlevelofthesystemaredeterminedbyallthesemoduleswhichdependoneachother.Chineseautomaticwordsegmentationmethodismadeupofmechanicalwordsegmentationmethodandnon—mechanicalwordsegmentation.Maximumpositivematchmethod,Maximumnegativematchmethodandwordbywordtravelmethodisthebasalmechanicalw

6、ordsegmentation,andothereighttypes,whichisnottruemechanicalwordsegmentation,areonlytakesomeskillsonthebasalwordsegmentationmethod.Thespecialistsystemmethodisawordsegmentationmethodbasedontheregularity,whilethenervefibernetworkmethodisacomputerChinesewordsegmentationtechnologybasedonthefundamentalof

7、theartificalnervenetwork.Accordingtotheresearchandsystemdesignaboutautomaticwordsegmentationmethodathomeandabroad,thispaperputsforwardtheconceptionoftheacademicmodelCWSM:M(F,W'T,K)fortheautomaticwordsegment

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。