基于统计的维吾尔文自动分类研究

基于统计的维吾尔文自动分类研究

ID:33363772

大小:187.66 KB

页数:5页

时间:2019-02-25

基于统计的维吾尔文自动分类研究_第1页
基于统计的维吾尔文自动分类研究_第2页
基于统计的维吾尔文自动分类研究_第3页
基于统计的维吾尔文自动分类研究_第4页
基于统计的维吾尔文自动分类研究_第5页
资源描述:

《基于统计的维吾尔文自动分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、722以科学发展观促进科技创新(中)长输管道是国家能源安全的一个重要保证,由于牵涉地域广,输送介质压力高,具有高的可燃性,一日泄漏可能造成巨大的灾难性后果。因此,保证长输管道的建设质量是一项长期和艰巨的任务,在长输管道建设中,我们要不断地坚持技术进步,不断地在提高建设质量上下大气力。下大功夫,不断地提高工程的质量管理水平。加强内部的三检制,强化检测与工程监理的作用。加强政府的监督检验,使我国的管道工业跻身于世界强国的行列。参考文献I权忠舆等主编.管道科学研究论文选集(1999--2003)北京:

2、石油工业出版社.20042王卫国等主编WTO与管道建设.北京:石油工业出版社,20023董旭等主编管道发展论文集北京:石油I业出版社,20044余彬泉等鳊顶菅施工技术.北京:人民交通出版社,1998作者简介续理,中国石油天然气管道局质量处长,高级工程师,研究领域:管道工程建设与质量管理。刘占锋,中国石油天然气管道局市场部常务副经理,高级工程师,研究领域:管道工程与市场管理。电话:0316—2171950,2171953。基于统计的维吾尔文自动分类研究古丽拉·阿东剐克新疆大学信息科学与工程学院,乌

3、鲁木齐,830046摘要本文提出了把雏吾尔语计算语言学自然语言处理的方法应用于维吾尔文文本计算机自动分类的研究。建立了雏吾尔文语料库,雏文文本表示采用向量空间模型的方法.用词作为维语的语言单位,既用词、词组、词串为特征单位.采用基于词频统计和规则的特征项的抽取,结合维文自然语言理解来提取文本特征。对词进行结构分析,根据词的结构和申。名词的属性,分类领域属性。采用时事新闻、教育、体育、文学、旅游、新疆民族风情等20类型,本文以维文政治、体育、娱乐、医学的分类为主,对此四种分类实现训练和测试,最终以

4、统计的方法确定该文本的类别,开发了一个维史文本自动分美实验系统。关键词维吾尔统计分类引言新疆维吾尔语文字是现在通用的6种少数民族语言文字之一。在新疆的广播、影视、新闻、报刊、图书出版和昆族语文教育体系等主要使用维吾尔语。髓着因特网应用的普及和信息技术的发展,特别是进人21世纪,人们已经从缺乏信息的时代过渡到了信息非常丰富的时代。待分类维吾尔文本的数量已到了-海量的地步,靠人工完成分类已是不可能的事情,如何从大量信息中迅速有效地提取出所需信息是迫切需解决的问题,因此,研究以计算机作为工具的文本自动

5、分类已成为信息处理的重要课题之一。文本自动分类TC(TextClassificaIionOrTextCategorization)是分析以自然语言写成的文本内容或第48分会场学术沙龙——胜科学发展观推动科技的创新723属性,计算机将一篇文章自动地分派到一个或多个预定义的类别中去,它属于计算语言学,信息检索IR和机器学习ML等的交叉学科。研究文本自动分类的意义:①文本自动分类不仅能对大规模的文本信息进行有效分类处理,而目.是提高文本信息处理功能和质量的有效手段。②文本自动分类将人类从低级的体力劳动

6、中解放出来,减轻了人在思维、整理和应用中的强度。③在Internet中将一些不好的信息从健康的信息中分类出来,保证了信息安全。一、国内外研究现状HP.LUHN在20世纪50年代末进行了文本自动分类的开创性研究以来,经历了三个发展阶段,第一阶段(1958~1964)进行文本自动分类的可行性研究,第二阶段(1965~1974)进行文本自动分类的实验研究,第三阶段(1974~至今)进行文本自动分类的实用化研究.而且,20世纪90年代后,主要采用统计机器学习方法建立分类器。文本自动分类技术主要有以美国S

7、ahon教授提出的基于向量空问模型理论为基础的分类方法和基于Agent的超文本分类方法(其基础为自适应反馈理论AdaptiveRemnaneeTheory,简称ART)。目前,文本自动分类方法常用:基于向量空间模型的方法(VectorSpaceMode,简称vSM),基于概率统计(Statisticsinlanguage)的方法,贝叶斯(NaiveBayes)方法,基于知识的方法,聚类方法,布尔向量(Bernoullimodel)方法,最新有基于图像模型(Graphmodel)的方法。国内外较为

8、成功的系统有:麻省理工学院(MIT)为白宫开发的邮件分类系统、卡内基集团为路透社开发的Cortstrue系统等,国内有南京大学的CTDCS(ChineseTechnicalDocumentClarificationSystem)等。虽然国内起步较晚,也有可喜的成果,如:2003年在北京大学举办的“中文网页自动分类竞赛”上,对中文网页自动分类研究起了推动作用,但新疆对维吾尔文文本自动分类的研究处于起步阶段。二、维吾尔文信息化研究现状及分析维吾尔语属于阿尔泰语系突厥语族,是拼音文字,在中国新疆地区的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。