基于朴素贝叶斯算法的垃圾短信智能识别系统

基于朴素贝叶斯算法的垃圾短信智能识别系统

ID:43000234

大小:18.70 KB

页数:8页

时间:2019-09-24

基于朴素贝叶斯算法的垃圾短信智能识别系统_第1页
基于朴素贝叶斯算法的垃圾短信智能识别系统_第2页
基于朴素贝叶斯算法的垃圾短信智能识别系统_第3页
基于朴素贝叶斯算法的垃圾短信智能识别系统_第4页
基于朴素贝叶斯算法的垃圾短信智能识别系统_第5页
资源描述:

《基于朴素贝叶斯算法的垃圾短信智能识别系统》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于朴素贝叶斯算法的垃圾短信智能识别系统  摘要:在信息化时代,垃圾短信、诈骗短信越来越成为人们日常生活中的困扰。在对垃圾短信的发展及市面上现有的拦截垃圾短信的软件进行分析后,发现垃圾短信为了躲避拦截在不断变化,拦截软件需要更加智能的去识别这些垃圾短信。为了应对不断变化的垃圾短信,为了解决联网举报、黑白名单等传统垃圾短信拦截模式触及不到的盲区,提出通过机器学习的方式让垃圾短信的拦截更加具智能化。该文就解决垃圾短信智能识别的问题,主要阐述了基于朴素贝叶斯公式的垃圾智能识别算法,分析了其算法效率,介绍了该算法在安卓平台上的设计,并对该系统进行了测试和评估。 

2、 关键词:垃圾短信智能识别;机器学习;朴素贝叶斯公式  中图分类号:TP18文献标识码:A文章编号:1009-3044(2016)12-0190-03  1概述  1.1背景介绍  科技高速发展的今天,智能手机已经越来越成为人们日常生活中必不可缺少的一部分了。骚扰电话和垃圾短信不仅严重干扰了人们的日常生活,甚至对于那些认知能力较差的群体,容易使其上当受骗,造成精神和财产上的损失。国家立法并不完善,无法做到手机号码实名制,预防垃圾短信的任务艰巨困难。现在市面上的垃圾短信拦截软件普遍具有以下缺点:  1)不支持用户个性化的识别功能。每台手机无法根据用户的偏好

3、提供相应的拦截服务;  2)很大程度依赖黑白名单,在白名单联系人手机被盗后无法预防诈骗短信;  3)收集用户信息。需要连接网络,将用户的信息上传至企业,一定程度上侵害了用户的隐私权。  1.2我们的改进  针对以上情况,为了更好识别、过滤垃圾短信,在本文中,我们设计了一种基于朴素贝叶斯算法的垃圾短信智能识别系统。该系统存储了大量有利于判别垃圾短信的关键词,根据短信内容中出现的关键词进行垃圾短信判断,也可以根据用户的反馈进行智能学习,提供符合用户需求的服务。除此之外,在不连接移动蜂窝网络的情况下也可正常使用,不会将数据上传至服务器,保证不对用户的信息进行收

4、集与窃取。  2贝叶斯算法  2.1贝叶斯算法的简介  朴素贝叶斯算法是用于分类的概率算法,在具有大量数据的情况下通过概率分析、判定某物是否能归于某类,具有很高的准确度。对于拦截垃圾短信这一课题,我们也可以用朴素贝叶斯公式对短信进行分类,类别有二:垃圾短信和正常短信,在具备大量关键词出现概率的条件下我们能对短信进行实时分类,实现了对垃圾短信的判定。  2.2分类器的数学模型  根据测试,MI>2时该特征能起到判别的作用,故此值可作为选择关键词的依据。无论一个关键词是集中出现在垃圾短信中还是集中出现在正常短信中,该关键词对区分垃圾短信与正常短信都产生了贡献

5、,应收纳进关键词数据库中。但事实上,垃圾短信数量与正常短信数量有很悬殊的差距,正常短信的数量要远大于垃圾短信的数量,若选取集中出现在正常短信的关键词,该关键词的MI值很难大于2。故实际运用中多数选取集中出现在垃圾短信的关键词作为特征。  5算法效率分析  在具备各个关键词的相关条件概率和先验概率的情况下,可以对短信进行判断。先验概率的计算只需一步即可完成,时间效率是线性的。计算关于各个关键词的条件概率是需要进行累乘来实现。假设有N个关键词,其中包含在短信文本中的关键词有N’个,累乘的时间效率为O(N’)。根据经验,一个短信文本中含有的关键词数量远不及存储

6、的关键词集,N’<

7、率部分。学习功能由用户反馈的机制实现,具体分为:手动添加垃圾短信,手动删除垃圾短信。  6.2数据库的设计  除了存储各个能作为判别特征的关键词,还应该在数据库中存储该关键词相应的属性,包括:各个关键词在垃圾短信中存在的个数、各个关键词在正常短信中存在的个数,这二者帮助系统计算条件概率。但仅是这些还不够,根据前文所述,该系统所需要存储的数据还包括统计的所有垃圾短信的个数和所有正常短信的个数,这样一来,系统通过总体数目的比值求得先验概率,利于我们进行之后的判断。  6.3判断垃圾短信的流程  如图1所示,  1)识别短信。当接到一条短信后系统首先识别该条短

8、信,判断其是图片形式的短信还是文字形式的短信。若为图片,系统采用OCR算法将图片

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。