加权贝叶斯邮件过滤方法研究

加权贝叶斯邮件过滤方法研究

ID:35048384

大小:2.76 MB

页数:47页

时间:2019-03-17

加权贝叶斯邮件过滤方法研究_第1页
加权贝叶斯邮件过滤方法研究_第2页
加权贝叶斯邮件过滤方法研究_第3页
加权贝叶斯邮件过滤方法研究_第4页
加权贝叶斯邮件过滤方法研究_第5页
资源描述:

《加权贝叶斯邮件过滤方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文加权贝叶斯邮件过滤方法研究RESEARCHONWEIGHTEDBAYESIANMAILFILTERINGMETHOD张远哈尔滨工业大学2016年6月国内图书分类号:O24学校代码:10213国际图书分类号:51密级:公开理学硕士学位论文加权贝叶斯邮件过滤方法研究硕士研究生:张远导师:冉启文教授申请学位:理学硕士学科:计算数学所在单位:数学系答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:O24U.D.C:51DissertationfortheMaster’sDegreeinScienceRESEARCHONWEIGHTEDBAYESIANM

2、AILFILTERINGMETHODCandidate:ZhangYuanSupervisor:Prof.RanQiWenAcademicDegreeAppliedfor:MasterofScienceSpeciality:ComputationalMathematicsAffiliation:DepartmentofMathematicsDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学理学硕士学位论文摘要电子邮件给人们的沟通交流带来极大的便利,与此同时也带来了新的

3、问题,即大量垃圾邮件的出现。垃圾邮件占用大量的网络资源,侵犯个人隐私,给人们造成了很大干扰,因此研究如何过滤垃圾邮件具有重要的现实意义和实际应用价值。本文在贝叶斯垃圾邮件分类算法的基础上进行研究工作。该算法基于统计学中的贝叶斯定理,根据先验概率求出后验概率,从而达到将垃圾邮件从大量电子文件中剔除的目的。贝叶斯垃圾邮件分类算法在按照文本分类进行邮件过滤的研究领域得到了广泛应用。本文首先介绍了垃圾邮件过滤的研究背景、国内外研究现状以及常用的邮件过滤方法和技术。为了建立垃圾邮件剔除效果测试的比较标准,介绍了贝叶斯概率定理、本文使用的语料库以及引用文献中经常使用文本分类性能评价指标。本文重点在分析

4、常用的特征表示和特征选择基础上,做一些改进工作。建立特征表示的指纹向量方法以及特征选择的CHI-XIG混合方法,初步分析这种新方法在垃圾邮件分类中的优越性,后续设计了仿真实验进行验证。实验结果显示在本文建立的特征表示和特征选择方法基础上,朴素贝叶斯算法邮件分类效果有显著提高。本文研究发现邮件头和邮件体在邮件分类过程中具有不同的作用,据此建立了给予邮件头和邮件体不同权重系数的加权贝叶斯邮件过滤模型。在实际使用中,邮件头和邮件体的权重系数从历史数据统计产生,利用加权贝叶斯邮件过滤模型计算得到邮件综合分数作为判断邮件类型的定量依据。仿真实验验证了加权贝叶斯邮件过滤模型在垃圾邮件分类中的明显优势。

5、关键词:贝叶斯定理;邮件过滤;特征选择;特征表示;加权-I-哈尔滨工业大学理学硕士学位论文AbstractItisconvenientforpeopletocommunicatewitheachotherbyE-mail,whileanewtroublecomesoutduetolargenumberofspam.Spamoccupiesalargeamountofnetworkresources,andhasaninvasionofprivacy,whichbringspeoplealotofinterference.Soitisofgreatpracticalsignificancea

6、ndpracticalvaluetostudyhowtofilterspam.Inthispaper,theresearchworkisbasedontheBayesianspamclassificationalgorithm.Thealgorithmbasedonbayesiantheoreminstatisticscanfindtheposteriorprobabilityonthebasisofthepriorprobability,thusthespamemailwillbepickedoutfromlotsofemail.Bayesianalgorithmhasbeenwidel

7、yadoptedinthefiledofE-mailfilteringaccordingtotextclassification.Thispaperfirstlyintroducesthespamfilteringresearchbackground,researchstatusathomeandabroadandthecommonfilteringmethods.Inordertoestablishastandardo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。