基于贝叶斯方法垃圾邮件过滤技术综述.doc

基于贝叶斯方法垃圾邮件过滤技术综述.doc

ID:53829241

大小:68.50 KB

页数:6页

时间:2020-04-08

基于贝叶斯方法垃圾邮件过滤技术综述.doc_第1页
基于贝叶斯方法垃圾邮件过滤技术综述.doc_第2页
基于贝叶斯方法垃圾邮件过滤技术综述.doc_第3页
基于贝叶斯方法垃圾邮件过滤技术综述.doc_第4页
基于贝叶斯方法垃圾邮件过滤技术综述.doc_第5页
资源描述:

《基于贝叶斯方法垃圾邮件过滤技术综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于贝叶斯方法垃圾邮件过滤技术综述摘要:垃圾邮件问题始终困扰着人们,因此一直是当今互联网面临的主要问题之一。许多优秀的文本分类算法被引入垃圾邮件过滤领域,其中包括贝叶斯分类方法。与其他分类方法相比,贝叶斯方法由于其简易实现性,线性计算复杂性、以及准确性成为当今垃圾邮件过滤技术中最流行的方法之一。该文将对基于贝叶斯方法的垃圾邮件过滤技术做出分析和综述,并提出进一步的研究方向。关键词:垃圾邮件;信息过滤;贝叶斯方法;文本分类;综述中图分类号:TP393文献标识码:A文章编号:1009-3044(2013

2、)14-3280-03随着Internet的普及,电子邮件日益得到了广泛的应用,成为日常生活中人与人之间通信交流的重要手段,但是垃圾邮件严重的干扰了人们正常的交流,造成了时空资源的巨大浪费,因此一直以来都受到人们的高度重视。许多在文本分类领域里表现非常优秀的机器学习算法被应用于垃圾邮件过滤技术的相关研究,例如基于规则的Ripper算法[1]、决策树算法[2]、Boosting算法[2]、粗糙集算法[3],基于统计的SVM算法[1]、KNN算法[4]和贝叶斯分类方法[5]等。由于贝叶斯方法的简易性、线

3、性计算复杂性、以及其高精度的结果,该类技术始终是当今垃圾邮件过滤技术中最流行的方法之一。目前垃圾邮件中用到的典型的贝叶斯算法主要有朴素贝叶斯算法(NaiveBayes,NB)、PaulGraham提出的PG贝叶斯算法。该文将主要对这两类贝叶斯算法做出研究综述。1朴素贝叶斯1.1朴素贝叶斯方法的基本原理邮件是无结构文本,经过预处理后,可以使用向量空间模型对其进行建模,把它表示成一个文本向量。假设已选定m个文本特征项,定义特征项集合为[T={tl,…,tm}]o特征项可以是特征词、特征词组或者其他属性特

4、征(如特殊符号等)。那么每封邮件文本[e]都可以表示成一个向量[X=],其中[xi]是属性[Xi]的取值,每个属性[Xi]都代表一个特征项[ti]的在文本e中的一些状态信息(如特征项[ti]是否在文本e中出现)。1.2多元伯努利模型1.3多元高斯模型1.4弹性贝叶斯模型1.5多项式模型2PG贝叶斯3各类贝叶斯方法的比较Metsis等人曾对各种朴素贝叶斯方法进行了对比试验.10]o采用了公开语料集Enron-Spam进行试验。Enron-Spam由6个子集组成,每个子集对应一个用户。实验首先对特征项数

5、目的选取进行了比较实验,令m分别取500、1000、3000,实验结果在选取了3000个属性的时候取得最好过滤效果。在选取3000个属性的基础上,对各种朴素贝叶斯方法进行比较,结果显示基于布尔属性的贝叶斯方法取得了最好结果,查全率是97.53%,查准率是97.26%。PaulGraham在自己搜集的语料集上验证PG贝叶斯方法,查全率达到99.5%,且没有一个误判。与朴素贝叶斯方法相比,PG贝叶斯方法有两个优势:一是选取特征项的数目不会太多,这就降低了计算复杂度;二是,PG贝叶斯只用“垃圾性”最大的一

6、些特征项来计算邮件属于“垃圾”的概率,这样就能很好的对抗那些为了欺骗过滤器而掺杂了大量正常词汇的垃圾邮件。4总结和展望相较于其他方法,贝叶斯方法无论是在计算复杂度上还是在过滤结果上都有很大优势,但是基于贝叶斯方法的垃圾邮件过滤技术却存在着一个局限性:将文本看成是一系列独立特征项的集合,而没有考虑特征项之间的语义关系。因此结合语义的垃圾邮件过滤技术会是未来研究的一个新方向。Santos等人使用增强的基于话题的向量空间模型(enhancedTopic-basedVectorSpaceModel,eTVS

7、M)将文本映射到话题向量空间,考虑了文本的语义关系,然后结合其他机器学习方法进行过滤和判断[11],在公开语料集Ling-Spam上进行了实验,每种分类器的精确率都高于92%。然而Ling-Spam的训练集具有话题集中的特点,这可能造成过于乐观的实验结果。Biro等人提出了一种基于主题模型的垃圾网页过滤方法,在垃圾邮件过滤领域尚未发现类似研究。总得来说垃圾邮件过滤是一项长期的斗争,要想通过技术完全根除垃圾邮件,依旧还有很长的路要走。参考文献:[1]DruckerH,WuD,VapnikVN.Supp

8、ortVectorMachinesforSpamCategorization[J]・IEEETransactionsonNeuralNetworks,1999,20(5):1048-1054.[2]CarrerasX,MarquezL.BoostingTreesforAnti-SpamEmailFiltering[C]//ProceedingsofEuropeanConferenceRecentAdvancesinNLP(RANLP-2001),2001:58-64.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。