基于文本内容的垃圾短信过滤系统

基于文本内容的垃圾短信过滤系统

ID:35179242

大小:1.87 MB

页数:69页

时间:2019-03-20

基于文本内容的垃圾短信过滤系统_第1页
基于文本内容的垃圾短信过滤系统_第2页
基于文本内容的垃圾短信过滤系统_第3页
基于文本内容的垃圾短信过滤系统_第4页
基于文本内容的垃圾短信过滤系统_第5页
资源描述:

《基于文本内容的垃圾短信过滤系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于文本内容的垃圾短信过滤系统米婧2015年12月中图分类号:TP391.1UDC分类号:681.37基于文本内容的垃圾短信过滤系统作者姓名米婧学院名称计算机学院指导教师郭贵锁副教授答辩委员会主席樊孝忠教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年1月AMulti-levelFrameworktoFilteringSpamMessagesbasedonTextContentCandidateName:MiJingSchoolorDepartment:SchoolofComputerScienceFacultyMe

2、ntor:Prof.GuoGuisuoChair,ThesisCommittee:Prof.FanXiaozhongDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefense:January,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研

3、究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:摘要随着短信的表现形式和文本特点的不断更新变化,如何更加准确并且快速地过滤垃圾短信,是短信拦截面临的主要问题之一。现有的垃圾短信过滤方案主要包括设置黑白名单、关键词匹配的过滤、用户主动举报或者标注的过滤、基于内容的过滤等。其中,基于内容的垃圾短信过滤方案可以更有效地应对文本的多样性变化,而不依赖短信其他的附属特征。但是现有的基于文本的垃圾短信过滤方法忽略了垃圾文本中包含的

4、垃圾短信明显特点,且对于短文本造成的稀疏向量问题,没有较好的解决方案。本文对未经预处理的原始短信样本分析其对垃圾短信的判定有突出贡献的噪音信息,将该信息抽象为自定义特征实现第一层过滤方案,进而提前过滤出一部分具有特定特点的垃圾短信,且该部分短信在预处理之后由于丢失噪音信息易被错分为合法短信;其次结合LDA主题模型对样本进行主题预测,有效实现特征扩展,缓解短文本所造成的稀疏向量对分类结果的负面影响。最后,本文采用真实的用户短信数据作为实验中的训练集和测试集,对特征扩展、分类进行实验对比,对各阶段的可变参数在一定取值范围内多次取值对比分类效果,得出更适应过滤系

5、统的参数取值。对实验结果则是采用准确率、召回率和F-Measure对垃圾短信、合法短信、综合效果三方面进行评估。最终的实验结果表明,本文提出的垃圾短信过滤框架可以有效地提高基于文本内容的垃圾短信过滤的准确度。关键词:垃圾短信;过滤;文本分类;特征扩展;分类IAbstractWiththeconstantlyupdatedformofshortmessageandtextfeature,itisveryurgenttofilterspammessagesaccuratelyandfast.Nowadays,theexistingspamSMSfilterin

6、gmethodsmainlyincludesettingblackandwhitelist,matchingkeywords,reportingactivelybyusersandfilteringbasedoncontent,etc.Amongthem,spamSMSfilteringbasedoncontentcanmoreeffectivelyrespondtothediversityoftheconstantupdatedmessageform,anddoesnothavetorelyonotherkindofinformationofSMS.Bu

7、tfortextcontent,traditionalfilteralgorithmsignoredtheobvioustextcharacteristicsofspammessagewhichinfluencesthefilter’sperformance.Besides,thesemethodshavenogoodsolutiontotheproblemofsparsevectorcausedbyshort-content.Inthispaper,weproposedanewframeworkforbuildingclassifiersthatdeal

8、withfilteringoutspammessagesbased

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。