北邮数据挖掘作业.doc

ID：55563348

大小：92.00 KB

页数：6页

时间：2020-05-17

资源描述：

《北邮数据挖掘作业.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、北京邮电大学2015-2016学年第1学期实验报告课程名称：数据仓库与数据挖掘实验名称：文本的分类实验完成人：姓名：学号：日期：2015年12月实验一：文本的分类1.实验目的1.了解一些数据挖掘的常用算法，掌握部分算法；2.掌握数据预处理的方法，对训练集数据进行预处理；3.利用学习的文本分类器，对未知文本进行分类判别；4.掌握评价分类器性能的评估方法。2.实验分工数据准备、预处理、LDA主题模型特征提取实现、SVM算法都由范树全独立完成。3.实验环境l操作系统：win764bit、Ubuntu-14.04-trus

2、tyl开发环境：javaIDEeclipse、PythonIDLE4.主要设计思想4.1实验工具介绍1.Scrapy0.25所谓网络爬虫，就是一个抓取特定网站网页的HTML数据的程序。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再递归的进行上述的操作，其实说来就跟深度遍历或广

3、度遍历一样。Scrapy是一个基于Twisted，纯Python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy使用Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。2.JGibbLDA-v.1.0jGibbLDA是java版本的LDA实现，它使用Gibbs采样来进行快速参数估计和推断。LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据中的关键项集之于类簇的概率参数拟合模型，进而利

4、用该参数模型实施聚类和分类等操作。3.ICTCLAS50中科院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS，该系统有中文分词，词性标注，未登录次识别等功能。4.libSVM-3.20libSVM是台湾大学林智仁教授等开发设计的一个简单、易用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在windows系列系统的可执行的文件，还提供了源代码，方便改进、修改以及在其他操作系统上应用；该软件对SVM所涉及的参数调节相对比较少，提供了很多默认参数，利用这

5、些默认参数可以解决很多问题；并提供了交互检验的功能。该软件可以解决C-SMV、v-SVM等问题，包括基于一对一算法的多类模式识别问题。1.1特征提取与表达方法的设计实验中特征提取使用的是LDA。LDA是主题模型的一种。LDA是目前机器学习，数据挖掘经典且热门的算法。一篇文章可以由不同的主题组成，在用LDA进行提取文章特征的时候，把每篇文章的主题分布概率当作该文章的特征，从而可以得出文章的特征向量。文章的主题数量可以人工指定，不同的主题数量最后会得到不同的准确率，实验中要根据实际情况，选择可以达到最大准确率的主题数量

6、。1.2分类算法的选择实验中分类算法使用的是SVM。SVM是一种监督式学习方法，可以广泛的用于统计分类和回归分析。SVM构造一个超平面，这些平面可能是高纬的，甚至可能是无限维的。在分类任务中，它的原理是，将超平面放置在这样一个位置，使得两类中接近这个位置的距离都最远。我们考虑两类线性可分问题，如果要在两类之间画一条线，那么按照SVM原理，我们会找两类之间最大的空白间隔，然后在空白间隔的中点画一条线，这条线平行于空白间隔。通过核函数，可以使得支持向量机对非线性可分的任务进行分类。1.3性能评估方法实验选择的性能评估方

7、法用到了准确率（precision）和召回率（recall）。具体计算方法如下：precision=a/b×100%recall=a/c×100%其中a表示正确预测类别i的数量，b表示预测结果中预测为类别i的数量，c表示实际为类别i的数量。比如“汽车”类别一共有1000篇文档，也就是c=1000，最终的预测结果中有1200篇（对所有类别文档进行预测）为“汽车”，也就是b=1200，而真正属于“汽车”类的有900篇，也就是a=900。那么“汽车”类的准确率为900/1200×100%=75%，召回率为900/1000

8、×100%=90%2.实验过程2.1文本分类语料库的采集选择腾讯新闻作为爬虫的目标网站。选取腾讯新闻下的体育、军事、房产、动漫、教育、文化、游戏、科技共八个分类进行文本爬取，设定目标为每个类2000篇。2.2数据预处理将每篇文档通过使用中科院提供的ICTCLAS的jni版本软件包将文档进行中文分词和词性标注。通过正则表达式将名词提取出来，并且根据停用词表去停

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

北邮数据挖掘作业.doc

北邮数据挖掘作业.doc

相关文章

相关标签