基于web的藏文文本自动分类研究与实现

基于web的藏文文本自动分类研究与实现

ID:33508182

大小:3.47 MB

页数:69页

时间:2019-02-26

基于web的藏文文本自动分类研究与实现_第1页
基于web的藏文文本自动分类研究与实现_第2页
基于web的藏文文本自动分类研究与实现_第3页
基于web的藏文文本自动分类研究与实现_第4页
基于web的藏文文本自动分类研究与实现_第5页
资源描述:

《基于web的藏文文本自动分类研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、青海民族大学硕士学位论文设计题目:基于web的藏文文本自动分类研究与实现姓名:叶西切忠学号:0501070905院系:计算机学院专业:中国少数民族语言文学研究方向:藏文信息处理及应用指导教师:安见才让教授青海民族大学研究生工作部2012年5月25日万方数据基于web的藏文文本自动分类研究与实现摘要随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,人们常对藏文网页按照其内容进行分类。目前,用传统的分

2、类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分

3、类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。关键词:藏文网页,自动分类,藏文分词,特征提取,分类算法;I万方数据Webཡི་བོད་ཡིག་ཡིག་ཚགས་རང་འགུལ་དབྱེ་འབྱེད་མ་ལག་གི་ཞིབ་འཇུག་དང་

4、མངོན་གྱུར།ནང་དོན་གནད་བསྡུས།དྱེ་ཡང་དྲ་རྒྱའི་ལག་རྩལ་གཏིང་ཟབ་ངང་འཕྱེལ་རྒྱས་དང་།བོད་ཡིག་དྲ་ཚིགས་མྱེད་པ་ནས་ཡོད་པ་ཡོད་པ་ནས་ཇྱེ་མང་དུ་སོང་ཞིང་།བོད་ཡིག་གི་བརྡ་འཕིན་ཐོན་ཁུངས་ཀྱང་སྐྱ་ཟད་སོ་སྡུག་གི་དུས་རབས་ནས་རྣམ་མང་ཕུན་ཚོགས་ཀྱི་གྲངས་ཚན་གི་དུས་རབས་སུ་ཕིན་མོད།རྒྱ་མཚོའི་གྲངས་ལ་

5、འཕ་བའི་བོད་ཡིག་ཆ་འཕིན་ཐོན་ཁུངས་ལས་མི་རྣམས་ཀྱིས་རང་རང་གི་འདོད་བོ་དང་འཚམ་པའི་བརྡ་འཕིན་ཞིག་བསྡུ་ལྱེན་བྱེད་རྒྱུ་ནི་ལས་ཚེགས་ཆྱེན་པོ་ཞིག་ཏུ་སྣང་ཕིན།དུས་རྒྱུན་བོད་ཡིག་གི་དྲ་ཚིགས་དག་ནང་དོན་ལ་གཞིགས་ནས་རིགས་དགར་གིན་ཡོད།མིག་སའི་སོལ་རྒྱུན་གི་ཡིག་ཚགས་དབྱེ་འབྱེད་བྱེད་ཐབས་དྱེར་ལས

6、་ཆོད་ཆྱེན་པོ་མྱེད་པས།ངྱེས་པར་རྩིས་འཕྲུལ་གིས་བོད་ཡིག་དྲ་ཚིགས་ཡིག་ཚགས་ལ་རང་འགུལ་གིས་དབྱེ་འབྱེད་བྱེད་པར་བསྱེན་དགོས་ཤིང་།རྩིས་འཕྲུལ་གིས་ཡིག་ཚགས་ལ་དབྱེ་འབྱེད་བས་ན་གཅིག་ནས་མིའི་རྩོལ་བ་དང་དངུལ་གི་འགྲོ་སོང་ཇྱེ་ཉུང་དུ་གཏོང་ཐུབ་པ་དང་།ག཈ིས་ནས་དྲ་ངོས་དབྱེ་འབྱེད་གི་ལས་ཆོད་དང་དག

7、་ཚད་ཀྱང་ཇྱེ་མཐོར་འགྲོ་ཐུབ་པས།མི་རྣམས་ཀྱིས་རྱེ་སྱེག་བ་བཞིན་པའི་བོད་ཡིག་དྲ་ཚིགས་ཡིག་ཚགས་དབྱེ་འབྱེད་ཀྱི་འདོད་བོ་དང་འཚམ་ཞིང་།ཁ་ཚ་དགོས་གཏུག་ཏུ་ཡོད་པའི་ཞིབ་འཇུག་བ་ཡུལ་ཞིག་ཏུའང་གྱུར་ཡོད་པ་ཡིན།རང་འགུལ་གིས་བོད་ཡིག་དྲ་ངོས་ཀྱི་ཡིག་ཚགས་དབྱེ་འབྱེད་བྱེད་པ་དྱེ་ནི་བོད་ཡིག་འཚོལ་བཤྱ

8、ེར་མ་ལག་དང་བོད་ཡིག་གྲངས་ཚན་དཔྱེ་མཛོད་ཁང་།བོད་ཡིག་པར་སྐྲུན་ཁང་སོགས་ཀྱི་ཁྱབ་ཁོངས་མ་ཟད།བོད་ཡིག་ཆ་འཕིན་ལག་རྩལ་སོགས་ཀྱི་བཞི་འཇུག་དང་འཕྱེལ་རྒྱས།བཀོལ་སོ

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。