基于改进贝叶斯算法的文本广告邮件过滤.pdf

基于改进贝叶斯算法的文本广告邮件过滤.pdf

ID:56483491

大小:515.05 KB

页数:4页

时间:2020-06-24

基于改进贝叶斯算法的文本广告邮件过滤.pdf_第1页
基于改进贝叶斯算法的文本广告邮件过滤.pdf_第2页
基于改进贝叶斯算法的文本广告邮件过滤.pdf_第3页
基于改进贝叶斯算法的文本广告邮件过滤.pdf_第4页
资源描述:

《基于改进贝叶斯算法的文本广告邮件过滤.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用安全基于改进贝叶斯算法的文本广告邮件过滤张璐王景中北方工业大学信息工程学院北京100041摘要:本文在分析朴素贝叶斯分类算法基础上提出了一种改进的贝叶斯算法,并将邮件视为句间有序,句内关键词无序的集合,用改进的贝叶斯算法模型设计了一种文本广告邮件过滤系统,通过实验证明了其有效性。关键词:文本广告邮件;贝叶斯算法;过滤器;哈希表0引言就认为是垃圾邮件。这种方法误判率很高,因为在垃圾邮件电子邮件作为Internet中最常用的服务之一,在给生产和中出现的关键字在正常邮件中也可能出现,这种方法越来越生活带来极大便利的同时,也引发了垃圾邮件的泛滥。据中少使用了。国互联网协会反

2、垃圾邮件中心统计,除了病毒、色情、欺诈第四类过滤也是目前使用较多的基于分类算法的过滤,性的邮件外,剩下的大概有80%的垃圾邮件是中小企业为推它可以将邮件看作两类:垃圾邮件、正常邮件,将邮件看作向量空间,计算邮件的相似度来判断是否为垃圾邮件。目前主要销产品而发布的广告邮件,它们不仅占用网络带宽,浪费网的方法是朴素贝叶斯、SVM、KNN等算法。根据实验结果,朴络资源,而且花费用户宝贵时间去清理,甚至造成商业欺诈素贝叶斯的过滤效果最好而且速度很快,许多产品已经出现,行为。因此,垃圾邮件的过滤具有十分重要的现实意义。如foxmail、outlook中都有基于贝叶斯的邮件过滤功能

3、。传统的反垃圾邮件技术对垃圾邮件的过滤效果都不尽如本文根据中文广告邮件的特点对传统的贝叶斯分类算法人意。实际上,垃圾邮件的致命缺陷就是邮件内容本身。垃进行了改进,用改进后的贝叶斯算法对广告邮件进行拦截,圾邮件制造者可以通过伪造信头等方式绕过任何反垃圾邮件实现有效的内容过滤。技术所设下屏障,但是无论什么邮件都要传递给用户一定的1关键技术信息,也就是邮件内容,如果反垃圾邮件工具能够识别这些信息,那么它们就再也无法避开了。因此,利用文本分类算由于绝大部分邮件本身就是文本,因此广告邮件的过滤法对垃圾邮件的内容进行识别和过滤逐渐成为反垃圾邮件技主要通过文本识别和分类技术来实现。所

4、谓文本分类,就是先给定分类体系,然后将文本分到术的主流。某个或者几个类别中去。文本自动分类方法必须解决的首要目前控制垃圾邮件的方法主要是过滤。问题就是如何在计算机中表示文本,基本的步骤主要包括确第一类过滤是基于IP等控制信息的过滤。基于IP等控制定句子和段落的边界、删除停用词、提取特征词,然后将文信息的过滤主要用在MTA(邮件传输代理)模块上,此方法将本转换成可以进行算法分析的特征向量。已知的一些经常发送垃圾邮件的IP等信息写入一个黑名单中,在以后服务器接受新邮件时,将发送邮件机器的IP和此1.1邮件预处理黑名单进行匹配,如果匹配,则拒绝接受此邮件。这种方法根据RFC8

5、22及MIME协议对邮件进行解析,主要对邮件虽然过滤简单,速度快,但是过滤效果较差,对初次出现的格式的解析和对邮件内容的解码;得出邮件的主题和内容;对垃圾邮件不起作用。于中文邮件,词与词之间没有明显的分隔符,因此必须对邮件第二类过滤是基于网络测量平台的过滤。在本地网的监内容进行分词,为下一步特征提取作准备。测点将进出的与邮件相关的通信量汇聚成邮件流,并区分成1.2文本的表示无效邮件流、正常邮件流和异常邮件流,然后根据这3种邮件文本分类是有监督的学习任务,任何文本分类算法在学流的统计特征,检测出本地网中产生的广告邮件、垃圾邮件习之前,都要将文本以一种合适的形式表示出来,使

6、其适应病毒以及异常邮件行为,并通过基于策略的响应机制实施拦于分类算法。本文采用向量空间模型(VectorSpaceModel,截和预警。由于区分成无效邮件流、正常邮件流和异常邮件VSM)将邮件表示为向量空间中的矢量。每封邮件都可以看作流较困难,此方法目前的过滤效果还不是太好。是词(或词组)的序列,所有词构成一个n维的向量空间。邮件第三类过滤是基于关键字匹配的过滤。关键字匹配是将矢量的分量可以采用布尔表示,即用1表示某词(或词组)在文垃圾邮件中可能含有的一些关键字放到文件夹中,当来了一档中出现,0表示不出现;也可以采用频度表示,即某词(或份新邮件时,匹配此新邮件中是否含有

7、那些关键字,如果有词组)在文档中出现的次数。2009.155应用安全1.3中文分词(1)目前,市场上的多数邮件分类器在处理英文邮件分类的对同一个邮件文本,P(X=x)不变,所以在式子(1)中比较问题上都表现出了较好的分类效果,但在中文邮件的分类上最大值时可以忽略。在贝叶斯分类仅计算概率P(C=C)和P(X=k却显得力不从心,其中很大一部分原因在于中文分词的准确x

8、C=C),其中P(C=C)是先验概率,P(X=x

9、C=C)是条件概率。kkk度不高。中文分词即自动识别词边界,将汉字串切分为正确条件概率P(X=x

10、C=C),表示在类别Ck时,X

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。