垃圾邮件过滤中信息增益的改进研究.pdf

垃圾邮件过滤中信息增益的改进研究.pdf

ID:56060860

大小:360.53 KB

页数:4页

时间:2020-06-20

垃圾邮件过滤中信息增益的改进研究.pdf_第1页
垃圾邮件过滤中信息增益的改进研究.pdf_第2页
垃圾邮件过滤中信息增益的改进研究.pdf_第3页
垃圾邮件过滤中信息增益的改进研究.pdf_第4页
资源描述:

《垃圾邮件过滤中信息增益的改进研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第41卷第6期计算机科学Vo1.41No.62014年6月ComputerScienceJune2014垃圾邮件过滤中信息增益的改进研究翟军昌秦玉平车伟伟(渤海大学锦州121000)(沈阳大学沈阳110044)。摘要针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分

2、类精度,降低了过滤器对合法邮件的误判给用户带来的损失。关键词信息增益,特征选择,垃圾邮件,朴素贝叶斯中图法分类号TP391文献标识码AImprovementofInformationGaininSpamFilteringZHAIJun-changQINYu-pingCHEWei-wei2(BohaiUniversity,Jinzhou121000,China)(ShenyangUniversity,Shenyang110044,China)AbstractThepaperputforwardakindofimprovedinformationgainforthefe

3、aturewordsselectioninspamfiltering.Firstly,definedgainratioaccordingtotheprobabilityoffeaturewords,andthenamplifedOrweakenedtheamountofin—formationofthefeaturewordsforclassification.therebyimprovingthecalculationmethodofcategoryconditionalentro—pY.Finally,combiningwiththenaiveBayesdeci

4、sionmethodofmaximumaposteriorihypothesis,carriedoutanexperi—mentontheEnglishCorpustOanalyzethealgorithmthroughrecall,correct,accuracyanderor.Theexperimentalre—sultsshowthattheimprovedalgorithmcanenhanceclassificationprecisionandreduceuserloss.KeywordsInformationgain,Featureselection,Sp

5、are,NaiveBayes邮件样本的训练和学习可以自动获得垃圾邮件的特征,并根1引言据垃圾邮件特征的变化准确地对垃圾邮件进行过滤。过滤器电子邮件(E-mail)在人们日常工作和生活中发挥着越来在学习阶段能否获得邮件样本的内容的有效信息从而建立有越重要的作用。与此同时,大量包含欺诈、营销、暴力、色情和效的特征项词库,将直接影响过滤器的性能[4]。在实际使用病毒等信息的垃圾邮件也随之产生。垃圾邮件日益泛滥,不中,用户宁愿接收更多的垃圾邮件,也不愿意将合法邮件误判仅占据了大量的网络带宽资源,而且产生一系列严重的网络为垃圾邮件,此外不同的用户对于同一封邮件的决策也不同,安

6、全问题。针对垃圾邮件问题的处理,目前主要以过滤技术因此如何有效提取邮件样本的特征,降低对合法邮件的误判,显得尤为重要。为主,其中典型的是基于内容的过滤和基于身份标示的过滤本文针对垃圾邮件过滤中特征项选择问题,提出了一种两种类型。基于内容的过滤技术,以贝叶斯(Bayes)、支持向改进的信息增益方法。利用特征词的先验概率定义增益比,量机(SVM)和决策树(KNN)等机器学习方法为代表,该类方对特征词的类别条件熵计算做了,改进,并采用了极大后验假法的主要特点是以邮件的内容特征作为邮件分类的依据。基设的贝叶斯决策方法。实验结果表明算法改进后过滤器的召于身份标示的过滤技术,以

7、基于黑、白名单过滤、反向DNS查回率变化与算法改进前召回率的变化比较接近,但是在改进询和基于用户信誉的过滤技术等为代表,该类方法的特点是后的算法中,正确率有明显的提高,而且正确率的变化比较稳根据邮件发件人的身份特征相关信息来判断邮件是否为垃圾定,表明改进后的算法使过滤器对合法邮件的误判数量在减邮件[。]。少,对合法邮件的误判率在降低,降低了过滤器对合法邮件的邮件内容的特征反映了邮件的内容主题,是邮件分类的误判给用户带来的损失。一个重要依据。目前基于内容的垃圾邮件过滤技术应用研究2相关知识介绍较多,该类方法首先收集大量合法邮件和垃圾邮件作为样本,然后指导过滤器对收

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。