北邮数据挖掘作业.doc

北邮数据挖掘作业.doc

ID:55563348

大小:92.00 KB

页数:6页

时间:2020-05-17

北邮数据挖掘作业.doc_第1页
北邮数据挖掘作业.doc_第2页
北邮数据挖掘作业.doc_第3页
北邮数据挖掘作业.doc_第4页
北邮数据挖掘作业.doc_第5页
资源描述:

《北邮数据挖掘作业.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京邮电大学2015-2016学年第1学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:学号:日期:2015年12月实验一:文本的分类1.实验目的1.了解一些数据挖掘的常用算法,掌握部分算法;2.掌握数据预处理的方法,对训练集数据进行预处理;3.利用学习的文本分类器,对未知文本进行分类判别;4.掌握评价分类器性能的评估方法。2.实验分工数据准备、预处理、LDA主题模型特征提取实现、SVM算法都由范树全独立完成。3.实验环境l操作系统:win764bit、Ubuntu-14.04-trus

2、tyl开发环境:javaIDEeclipse、PythonIDLE4.主要设计思想4.1实验工具介绍1.Scrapy0.25所谓网络爬虫,就是一个抓取特定网站网页的HTML数据的程序。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广

3、度遍历一样。Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。2.JGibbLDA-v.1.0jGibbLDA是java版本的LDA实现,它使用Gibbs采样来进行快速参数估计和推断。LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据中的关键项集之于类簇的概率参数拟合模型,进而利

4、用该参数模型实施聚类和分类等操作。3.ICTCLAS50中科院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS,该系统有中文分词,词性标注,未登录次识别等功能。4.libSVM-3.20libSVM是台湾大学林智仁教授等开发设计的一个简单、易用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在windows系列系统的可执行的文件,还提供了源代码,方便改进、修改以及在其他操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多默认参数,利用这

5、些默认参数可以解决很多问题;并提供了交互检验的功能。该软件可以解决C-SMV、v-SVM等问题,包括基于一对一算法的多类模式识别问题。1.1特征提取与表达方法的设计实验中特征提取使用的是LDA。LDA是主题模型的一种。LDA是目前机器学习,数据挖掘经典且热门的算法。一篇文章可以由不同的主题组成,在用LDA进行提取文章特征的时候,把每篇文章的主题分布概率当作该文章的特征,从而可以得出文章的特征向量。文章的主题数量可以人工指定,不同的主题数量最后会得到不同的准确率,实验中要根据实际情况,选择可以达到最大准确率的主题数量

6、。1.2分类算法的选择实验中分类算法使用的是SVM。SVM是一种监督式学习方法,可以广泛的用于统计分类和回归分析。SVM构造一个超平面,这些平面可能是高纬的,甚至可能是无限维的。在分类任务中,它的原理是,将超平面放置在这样一个位置,使得两类中接近这个位置的距离都最远。我们考虑两类线性可分问题,如果要在两类之间画一条线,那么按照SVM原理,我们会找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。通过核函数,可以使得支持向量机对非线性可分的任务进行分类。1.3性能评估方法实验选择的性能评估方

7、法用到了准确率(precision)和召回率(recall)。具体计算方法如下:precision=a/b×100%recall=a/c×100%其中a表示正确预测类别i的数量,b表示预测结果中预测为类别i的数量,c表示实际为类别i的数量。比如“汽车”类别一共有1000篇文档,也就是c=1000,最终的预测结果中有1200篇(对所有类别文档进行预测)为“汽车”,也就是b=1200,而真正属于“汽车”类的有900篇,也就是a=900。那么“汽车”类的准确率为900/1200×100%=75%,召回率为900/1000

8、×100%=90%2.实验过程2.1文本分类语料库的采集选择腾讯新闻作为爬虫的目标网站。选取腾讯新闻下的体育、军事、房产、动漫、教育、文化、游戏、科技共八个分类进行文本爬取,设定目标为每个类2000篇。2.2数据预处理将每篇文档通过使用中科院提供的ICTCLAS的jni版本软件包将文档进行中文分词和词性标注。通过正则表达式将名词提取出来,并且根据停用词表去停

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。