文本特征选择算法研究及其在微博上的应用

文本特征选择算法研究及其在微博上的应用

ID:35082953

大小:4.92 MB

页数:97页

时间:2019-03-17

文本特征选择算法研究及其在微博上的应用_第1页
文本特征选择算法研究及其在微博上的应用_第2页
文本特征选择算法研究及其在微博上的应用_第3页
文本特征选择算法研究及其在微博上的应用_第4页
文本特征选择算法研究及其在微博上的应用_第5页
资源描述:

《文本特征选择算法研究及其在微博上的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.‘‘.'‘^=占..-女/,人.;/';vv.yr巧’。、八‘.如..呼听.f;H;-■、。'■心-.’、.人‘-..^::v;.y:》^^■分类号I学校代码10372-i,诗.、::,[/J.本枯.%,广心考作場餐慶卸藏丈聲域.‘,f硕±学位论文博.?与1’''''-..r:打..-I坤,./i;文本特征选择算法研究及其在微博上的应用;一;.,巧^'■*-'''‘,v,-i-V\'■-■、.’'\.n;..i\,jv车又作者姓名、.

2、:任勇‘,!.鴻气二心的辨学号:Yl369〇〇〇4给苗7於、帥‘户‘令t学科专业;吗茲:统计学議1起懼論;弓4‘、沁.;,.p研究方向:统计学习与预测V.,喪巧’坏导师及职称:程玉胜教授..雜1.、嫁导^^簿/韦;2016年6.论文答辩日期月;'授予学位曰期-:2〇16年6月,—i;咬;知1識1''.球.#识%.X滅.、八‘I'、^I^.V;.《,V,'苗咬’’—A安庆师范大学硕去学位评定委员会办公室‘^1.‘八V'’、.;,、.V.巧.八’i■-t.‘^.‘:';-'"、

3、‘、、^'.,.:..L.;v^’,—v.^;.^乂^:,'譜‘.t。—'姑r*.-;;:...-i.,V;r.rVv;H;,;帝V>义7:的;^安庆师范大学硕士学位论文题目:(文本特征选择算法研究及其在微博上的应用)Subject:(Researchontextfeatureselectionalgorithmanditsapplicationinmicro-blog)作者姓名:任勇学号:Y13690004学科专业:统计学研究方向:统计学习与预测导师及职称:程玉胜教授论文答辩日期:2016年6月授予学位日期:2016年6月安庆师范大学学位评定委

4、员会办公室文本特征选择算法研究及其在微博上的应用任勇安庆师范大学硕士学位论文2016年5月26日(论文提交日期)摘要随着互联网的日益普及,互联网上的信息量也在逐年激增,而这些信息数据基本上都是以文本的形式保存的。在这些庞大的数据里面,多是一些复杂的数据,这也间接的导致了数据虽然多,但是想要获取有效的数据信息却比较困难。文本挖掘技术便应运而生,文本分类是其中的一种重要技术,它可以解决数据错综复杂的问题,能够帮助人们有效的查看处理这些数据信息。当然,如果想把待分类的文本分类准确,不仅文本分类算法重要,特征选择方法也极其重要,其次,挖掘结果的有效呈现也值得研究。本文主要对文本的特征选择及其微

5、博文本的挖掘结果可视化进行了相关研究。特征选择方法主要工作就是从待分类的文本数据中挑选出对文本分类有代表价值的特征词项,同时还能够删除一些待分类文本中的噪声词,从而可以降低文本内容的维数以及把文本的分类准确性提高。而现在的卡方特征选择方法因为过多的考虑低频词的价值而对分类效果造成了一定的影响,所以本文基于χଶ特征选择算法提出了改进的建议,首先将χଶ特征选择算法公式进行简化,只考虑特征项与文本的正相关性,负相关性默认χଶ值为零,这样可以降低机器的计算时间,然后我们引入特征项在某类别出现的总的词频数α作为调节参数,这样就可以用引入的α参数来消解χଶ特征选择方法对低频词的过度倚重的问题。由于

6、微博用户数的快速增长,其已经成为一个重要的公众媒介,它不仅是网民从中获取新闻热点、实时报道,拓宽视野并且结交朋友的重要工具,也成为了一个社会公共舆论的重要社交平台。目前,微博注册用户已经达到了5亿之多,说明微博平台已经在人们的生活中发挥了越来越大的作用,但是,微博每天产生大量的短文本数据,如何高效的从这些文本数据中进行统计分析,挖掘出有效信息,也是新媒体时代统计工作者的重要课题。在特征选择方法的基础之上,本文以安庆师范大学学生会在新浪微博平台上发布的信息为例,运用改进的特征选择方法和权重公式相结合,再利用R语言等工具,进行了相关统计分析,并改进了高频词的文字云显示方式,最后将主题词以更

7、加直观的文字云形式展示出来。关键词:文本分类;特征选择;低频词;TF-IDF;微博;文字云;IABSTRACTWiththeincreasingpopularityoftheInternet,theamountofinformationontheInternetalsoincreasesyearbyyear,andthesedataarebasicallysavedastext.Mostofthesehugedataarecomplex,whi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。