欢迎来到天天文库
浏览记录
ID:35065680
大小:3.58 MB
页数:64页
时间:2019-03-17
《基于数据挖掘在社交网络中热点话题的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ZhejiangSci-TechUniversity硕士学位论文Master’sThesis中文论文题目:基于数据挖掘在社交网络中热点话题的研究英文论文题目:ResearchonHotTopicsoftheSocialNetworkBasedonDataMining学科专业:计算机科学与技术作者姓名:王军强指导老师:刘建平完成日期:2015年12月24日浙江理工大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加y■标注和致谢的地方外,论
2、文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得浙江理工大学或其他教育机构的学位或证书而使用过的材料。与我'一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年^月日■学位论文版权使用授权书本学位论义作者完全了解浙江理工大学有权保留并向国家有关部口或机构送交本论文的复印件和磁盘。,允许论文被查阅和借阅本人授权逝汪蠢王去拳可将学位论文的全部或部分内容编入有关数据库进行检索和传播、,可1^采用影印缩印或扫描
3、等复制手段保存。、汇编学位论文(保密的学位论文在解密后适用本授权书)学位论文作者签名:若^签字日期;年^月日1导师签名;^(^^签字曰期;年)月!^曰浙江理工大学硕士学位论文基于数据挖掘在社交网络中热点话题的研究摘要随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与信息量不断扩大的同时,如何在海量信息中快速而准确地挖掘出用户关注的热点话题,已经成为当今一个热门的研究方向
4、。热点话题发现是通过运用统计分析和数据挖掘等相关技术,利用社交网络中用户发表的言论对话题进行挖掘,最终向用户呈现如新浪微博展示的一个热门话题排行榜。与传统互联网媒体相比,当前社交网络消息文本具有高维性、稀疏性、主题分布不均匀性、网络用语不规范等特点,且信息量呈爆炸式增长,导致传统的话题发现技术直接应用在社交网络中在准确度与效率方面都存在巨大问题。本文通过分析比较各种算法的优缺点进而选用朴素贝叶斯分类算法与单遍聚类(Single-pass)算法作为话题发现的算法,并对算法进行深入的研究分析其存在的问题,分别对
5、其进行改进。本文主要的研究工作有以下几个方面:(1)深入研究当前社交网络中消息文本的特点,详细阐述了话题发现的基本流程,分析并比较话题发现过程中的相关算法,设计并实现一种自动获取实验数据的方式。针对当前社交网络的特点分析目前话题发现技术存在的问题,进而提出一种先分类后聚类的方式挖掘热点话题。(2)针对当前社交网络特点,朴素贝叶斯分类算法进行分类时准确度与速度方面都存在问题,本文引入方差过滤对其进行改进,将改进后的朴素贝叶斯分类算法结合Hadoop平台形成并行的分类,从而达到提高分类的准确度与速度的目的。通过
6、新浪API获取公开的数据集进行对比实验,验证改进算法的有效性。(3)提出基于块的单遍聚类(Single-pass)算法,该算法主要是通过分块的思想来降低传统单遍聚类(Single-pass)算法的时间复杂度,提高聚类的效率;通过新浪API获取公开的数据集进行对比实验,验证改进算法的优势,最后验证了先分类后聚类较直接聚类获取热点话题的优越性。关键词:社交网络;热点话题;朴素贝叶斯分类;单遍聚类I浙江理工大学硕士学位论文基于数据挖掘在社交网络中热点话题的研究ResearchonHotTopicsofSocial
7、NetworkBasedonDataMiningABSTRACTWiththerapiddevelopmentofinformationtechnologyandthepopularityoftheInternet,socialnetworkhasbecomeanindispensablepartofpeople’sdailylife,Asanewsocialplatform,socialnetworkischangingpeople’scommunicationhabits.Today,withtheex
8、pansionofsocialnetworkusersandinformation,howtoquicklyandaccuratelyfindthehottopicthatusersconcernedaboutinmassinformationhasbecomeahotresearchdirection.Hottopicisfoundbyapplyingstatisticalanalysisanddatamini
此文档下载收益归作者所有