基于贝叶斯理论的微博“僵尸粉”识别研究

基于贝叶斯理论的微博“僵尸粉”识别研究

ID:10734370

大小:756.50 KB

页数:30页

时间:2018-07-08

基于贝叶斯理论的微博“僵尸粉”识别研究_第1页
基于贝叶斯理论的微博“僵尸粉”识别研究_第2页
基于贝叶斯理论的微博“僵尸粉”识别研究_第3页
基于贝叶斯理论的微博“僵尸粉”识别研究_第4页
基于贝叶斯理论的微博“僵尸粉”识别研究_第5页
资源描述:

《基于贝叶斯理论的微博“僵尸粉”识别研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于贝叶斯理论的微博“僵尸粉”识别研究高中组数学个人项目27摘要随着微博迅速发展,微博“僵尸粉”(机器批量生成的恶意用户)泛滥,污染微博数据,危害网络安全,但现有识别方法大多不能有效识别僵尸粉、难以适应其更新换代.本研究基于贝叶斯理论建立七个包含不同样本特征的微博僵尸粉识别模型,并根据ROC曲线和AUC值选出识别能力最佳的模型,最后利用MATLAB软件进行算例分析并制作用户界面.研究分析表明:以用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值为样本特征的僵尸粉识别模型识别能力最佳,当概率阈值为0.7时,其召回率和准确率分别达到92

2、.37%和98.37%,识别效果良好.关键词微博“僵尸粉”,贝叶斯理论,识别模型27目录摘要I1.前言11.1课题由来及意义11.2相关研究现况21.3贝叶斯理论简介22.模型部分32.1模型符号说明32.2模型假设32.3基于贝叶斯理论的识别模型42.4基于最小风险的概率阈值选取52.5模型评价指标72.5.1ROC曲线和AUC值72.5.2召回率、准确率和值83.算例分析83.1基于ROC曲线和AUC值的模型识别能力评价93.2模型检验114.用户界面制作125.结论与展望145.1结论145.2展望14致谢16参考文献17附录18271

3、.前言1.1课题由来及意义随着互联网以及信息时代的发展,微博(MicroBlog简称)已成为网络社交平台中炙手可热的焦点,截止2013年3月,仅新浪门户下的微博注册用户就已超过5亿.微博作为用户即时分享交流的平台,部分企业营销的新路径,社会学等研究的重要依据,对于网络生活、经济发展和科学研究有着重大影响.在微博中,粉丝是对某一博主保持持续关注的群体,粉丝数的增加使得博主的影响力逐步扩大,由此引发了粉丝数量的竞争和一场虚假粉丝(即僵尸粉)的买卖风波[1].僵尸粉是由计算机程序批量生成的恶意注册用户,它们有的以增加特定用户的粉丝数为目的,有的以散

4、布广告信息为目的,其行为均由程序操控,不具有人的情感.僵尸粉带来的虚假关注度大大减弱了微博平台信息的可信度,影响了微博营销的公正诚信,增加了科学研究中数据采集过滤的难度,阻碍了微博这一新型社交平台的发展.对于僵尸粉的泛滥新浪微博官方已采取相关措施[2],过滤了部分僵尸粉.然而“上有政策,下有对策”,从开始时“无头像无微博无粉丝”的低级僵尸,到如今逼近真实用户的高级僵尸,僵尸粉也在不断更新升级.一些剔除僵尸粉的应用软件也应运而生[3],但它们仅仅以简单的硬性标准过滤去一些不活跃的粉丝用户,对稍高级的僵尸粉依然束手无策,且很可能将新注册的用户误判

5、为僵尸粉.根据对淘宝“刷粉”店铺和卖家的调查,目前新浪门户关注型僵尸粉[1]大致分为四个级别:低级僵尸粉(一般无头像、无粉丝、无微博,现大多已被新浪官方屏蔽),初级粉(一般有头像,无粉丝,无微博,部分可被新浪官方屏蔽),高级粉(有头像,有粉丝,有微博,新浪官方无法识别)和顶级粉(接近真实用户,且有部分“微博达人”——新浪门户对活跃用户的奖励机制).本研究基于贝叶斯理论建立微博僵尸粉识别模型,通过大量实际样本数据学习僵尸粉(主要针对初级粉和高级粉)和真实用户的基本特征,并投入实际的识别应用,具有较好的理论和实际应用意义.271.2相关研究现况针

6、对僵尸粉的泛滥,微博官方与非官方都采取了一定措施进行过滤.但现有方法仅能除去部分低级的僵尸粉,且很容易对新注册的真实用户造成误判.僵尸粉问题也引起一些学者的关注,并纷纷进行探讨.文献[1]对僵尸粉的概念和基本类型进行了梳理,分析他们的行为特征,并提出基本识别方法,为微博僵尸粉的识别和清理奠定基础.文献[4]根据微博用户存在的形式和用户间关系的特征,提出了一种降低僵尸粉影响的方法.文献[5]提出一种基于微博注册用户名特征提取的智能分类方法,准确率达92%,但它对除用户名外的信息没有很好地利用.贝叶斯理论是统计学决策方法的基础之一,通过采样,修正

7、先验信息来减少事物的不确定性[6].它因具有较强的信息融合能力而广泛应用于分类、预测、决策等领域.其中,在垃圾邮件过滤中贝叶斯方法表现出了很好的效果,较其他方法有较大的优势[7].综上所述,目前缺少有效识别僵尸粉的方法,本文将基于贝叶斯理论建立微博僵尸粉识别模型,并通过算例分析来验证模型的有效性.1.3贝叶斯理论简介[6]贝叶斯理论是统计学决策方法的基础之一,它通过采样,不断修正先验信息,从而减少事物的不确定性,在此基础上制定最优决策.它不仅仅承认和利用已有的知识,甚至包括主观的判断和直觉,而且它主张利用客观的采样信息修改并丰富已有的知识,因

8、此贝叶斯统计推断过程类似于成人的学习过程,即知识的综合与更新过程.假设个事件是互斥的,为另一给定事件,贝叶斯定统计推断的表达式为:(1)其中,表示事件的先验概率;表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。