欢迎来到天天文库
浏览记录
ID:52768397
大小:492.25 KB
页数:5页
时间:2020-03-30
《基于概念的Web文本分类方法及实现_郑瑞娟.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第28卷第2期北京信息科技大学学报Vol.28No.22013年4月JournalofBeijingInformationScienceandTechnologyUniversityApr.2013文章编号:1674-6864(2013)03-0077-05基于概念的Web文本分类方法及实现郑瑞娟,张仰森(北京信息科技大学智能信息处理研究所,北京100192)摘要:通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念
2、的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。关键词:web文本分类;概念特征;概念词典;模糊距离匹配算法中图分类号:TP391.4文献标志码:AMethodandrealizationofWebtextclassificationbasedonconceptsZHENGRui-juan,ZHANGYang-sen(InstituteofIntelligentInformationProcessing,BeijingInformationScienceandTechnologyUnive
3、rsityBeijing100192,China)Abstract:TheextractionofplaintextcontentofWebpagesisachievedbystudyingthehtmlpagestructure,.Thecommonlyusedmethodoffeatureextractionandtextclassificationisresearched.Theconceptfeatureextractionmethodbasedontheconceptdictionaryisproposedandthesimplevectorfuzzydistancematchin
4、galgorithmisusedtoclassifythetext.AChineseconceptofWeb-basedtextclassificationsystemisdesignedandimplemented.Throughcomparativeanalysisofexperimentaldata,theclassificationaccuracyisupto89%beforetheintroductionoftheconceptofcharacteristicwhiletheclassificationaverageefficiencyisimprovedgreatlytomore
5、than95%aftertheintroduction.Keywords:Webtextclassification;conceptcharacteristic;conceptdictionary;fuzzydistancematchingalgorithms征概念的提取方法和文本分类算法进行研究,以类0引言别训练文本集为基础,基于特征概念表示方法,提出国外对文本分类的研究已经进入了实用性阶一种通过模糊距离计算来对文本进行概念层次匹配段,较为成功的有麻省理工学院为白宫开发的邮件计算的方法。分类系统和卡耐基集团为路透社开发的construe系[1]1网页内容获取与文本预处理统。目前,国内Web
6、文本分类还没有标准的开放的文本测试集,分类结果没有可比性,不利于交流和1.1获取网页字符串提高。将自然语言理解和处理技术、语义Web概念基于Web的文本分类,首要任务是从Web网和机器翻译等技术应用于Web自动文本分类中可页中获取中文文本,采用C#中包含的WebClient类,[2]以解决文本分类过程中出现的高维特征问题。提供向URI(UniformResourceIdentifier,通用资源标本文作者通过对Web中文文本自动分类及相关技识符)标识的资源发送数据和从URI标识的资源接术的研究和探索,提出一种基于中文概念的Web文收数据的公共方法。使用WebClient类,用户可以本分类方法
7、,并对Web文本抓取、中文分词、类别特将网页源码保存到Byte数组中。创建一个收稿日期:2012-10-10基金项目:国家自然科学基金资助项目(61070119);北京大学计算语言学教育部重点实验室开放课题基金资助项目(KLCL-1005);北京市属市管高等学校人才强教计划基金资助项目(PHR201007131);北京市教委专项基金(PXM2012-014224-000020)作者简介:郑瑞娟(1983-),
此文档下载收益归作者所有