垃圾邮件过滤系统.ppt

垃圾邮件过滤系统.ppt

ID:52446651

大小:60.50 KB

页数:18页

时间:2020-04-07

垃圾邮件过滤系统.ppt_第1页
垃圾邮件过滤系统.ppt_第2页
垃圾邮件过滤系统.ppt_第3页
垃圾邮件过滤系统.ppt_第4页
垃圾邮件过滤系统.ppt_第5页
资源描述:

《垃圾邮件过滤系统.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、垃圾邮件过滤系统1、什么是垃圾邮件?垃圾邮件过滤2、什么是过滤?如何过滤?垃圾邮件的定义垃圾邮件是指向未主动请求的用户发送的电子邮件如广告、刊物或其他资料;或没有明确的退信方法、发信人、回信地址等的邮件;或者利用网络从事违反网络服务供应商的安全策略或服务条款的行为和其他预计会导致投诉的邮件。垃圾邮件的防范现在,采用的反垃圾邮件技术主要从三个方面来防范垃圾邮件:邮件发送方、邮件传输过程、邮件接收方。采用的主要技术有:1、邮件服务系统的安全加固:主要措施有增强邮件服务器的安全性、提供邮件服务安全身份认证、添加反垃圾邮件的专用设备或插件等。2、邮件过滤技术。主要技术有基于规则(如IP地址、域名、邮

2、件地址等)和基于统计的过滤方式(基于邮件内容过滤)。3、提高发送垃圾邮件成本,从源头上阻止垃圾邮件的产生。主要技术有电子邮票、Challenge-Response,SPE(senderpolicyframework)等。过滤过滤就是分类。信息过滤(Informationfiltering)是一个十分广泛的概念。有人定义信息过滤为:根据用户的信息需求对动态数据流进行过滤,仅仅把满足用户需求的信息传送给用户,以提高获取信息的效率。这种定义主要是着重于信息检索方面,他们主要研究的问题在于信息的自动分类、文本文摘自动化,以及Web数据的检索等问题。信息过滤所需要解决这样几个问题1.如何获取信息。2.

3、信息如何进行表示。3.根据什么样的规则和方法来处理信息。4.信息相似度如何计算。5.匹配规则的自动生成。其中信息表示是系统的基础部分,信息表示的好坏将直接影响到其他的几个方面,因为它决定了信息处理的方法、规则的生成等。信息过滤在文档类信息中的应用就是将文档内容按照一定的表示方法如向量空间模型进行整理后,采用文本分类的方法进行信息过滤。文本分类的算法有基于概念的文本分类算法、贝叶斯分类方法、K-最近邻接分类算法、基于语义网络的概念推理网分类方法和向量空间法等。我们主要采用的是贝叶斯分类方法。贝叶斯分类方法贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类时,通过计算文本属于每个类别的概率P

4、(cj

5、dx),将该文本归为概率最大的一类,计算P(cj

6、dx)时利用贝叶斯公式。简单贝叶斯分类算法即NaiveBayesian,它建立在“贝叶斯假设”的基础之上:假设所有的特征之间互相独立。实际上,在生活中这种独立性很难存在,但从目前的实验结果看来,基于这个假设的简单贝叶斯分类算法的效果很好,而且计算简单,因此在很多场合得到适用。Graham使用NaiveBayesian过滤垃圾邮件的理论PaulGraham于2002年8月发表了一篇文章:APlanforSpam,在文章中Graham提议建立垃圾邮件和非垃圾邮件单词的贝叶斯概率模型。其大体思想是,在已知的垃圾邮件中,一些单词出现的频率较高

7、。运用一些众所周知的数学知识,对于每个特征,可以生成一个“垃圾邮件指示性概率”(spamminessprobability)。根据邮件中所包含的一组词,可以用另一个简单的数学公式来确定文本邮件的“整体垃圾邮件概率”(combinedprobability),也称邮件的联合概率。算法说明我们之所以选择贝叶斯算法,原因是由于该算法的优点在于:1、实现简单;2、贝叶斯模型能够自我纠正。特征概率的算法对于训练集中的一个特征w:b(w)=含有特征w的垃圾邮件数量/总的垃圾邮件的数量;g(w)=含有特征w的合法邮件数量/总的合法邮件的数量;特征w概率f(w)的计算:上式中:n:含特征w的邮件数量;s:一

8、个常数参量,通常为1;x:当n=0时,我们需要假设的常量,也是特征w的概率,通常设为0.5;p(w)是Graham方法对特征概率的估计。邮件特征联合概率的算法在过滤过程中,对于进入过滤的邮件,我们要根据训练的结果和该邮件的特征表示,给该邮件一个综合的判定值,即联合概率。然后根据设定的阈值,判定此邮件是垃圾邮件还是合法邮件。计算方法如下:A,B,C,...,N代表了各个特征的在哈希表hash-spamminess中的值。当邮件特征中包含以前没有从来没有出现的特征,建议特征概率为0.4。本垃圾邮件过滤系统的工作说明垃圾邮件过滤系统的系统流程图:特征库训练器(特征提取)过滤器(把垃圾邮件标识出来)

9、邮件训练集邮件测试集存储过滤结果邮件提取:利用对邮件的解码提取邮件信息,包括对测试集邮件的提取和训练集邮件的提取。特征提取:将由训练集或者测试集中的邮件,进行特征提取。在训练集中,把从邮件提取的特征,按照已定的算法进行计算,再用放入特征库中来进行储存;在测试集中,提取邮件的特征,交给下个环节处理。在系统中,邮件阶段是通过对邮件的解码获取信息,并将邮件转换为文本。特征提取是提取邮件的主题和邮件体中的字符串,利用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。