朴素贝叶斯分类在入侵检测中的应用(1)的论文

朴素贝叶斯分类在入侵检测中的应用(1)的论文

ID:10325674

大小:77.00 KB

页数:10页

时间:2018-07-06

朴素贝叶斯分类在入侵检测中的应用(1)的论文_第1页
朴素贝叶斯分类在入侵检测中的应用(1)的论文_第2页
朴素贝叶斯分类在入侵检测中的应用(1)的论文_第3页
朴素贝叶斯分类在入侵检测中的应用(1)的论文_第4页
朴素贝叶斯分类在入侵检测中的应用(1)的论文_第5页
资源描述:

《朴素贝叶斯分类在入侵检测中的应用(1)的论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、朴素贝叶斯分类在入侵检测中的应用(1)的论文摘要贝叶斯分类能高效地处理大型数据,本文使用核密度估计的朴素贝叶斯分类来进行入侵检测。由于入侵检测审计数据属性多为连续变量,所以在贝叶斯分类算法中使用核密度估计,有助于提高分类的精度,另引入对称不确定方法有效地删除不相关的检测属性,进一步提高分类效率。关键字贝叶斯;核密度;入侵检测;分类1前言在入侵检测系统中,为了提高系统的性能,包括降低误报率和漏报率,缩短反应时间等,学者们引入了许多方法,如专家系统、神经网络、遗传算法和数据挖掘中的聚类,分类等各种算法。例如:cooperherkovits提出的一种基于贪心算法的贝叶斯信

2、念网络,而provansinghprovan,g.msinghm和其他学者报告了这种方法的优点。贝叶斯网络说明联合条件概率分布,为机器学习提供一种因果关系的图形,能有效的处理某些问题,如诊断:贝叶斯网络能正确的处理不确定和有噪声的问题,这类问题在任何检测任务中都很重要。然而,在分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯算法给人印象更为深刻。.cOm尽管朴素贝叶斯的分类器有个很简单的假定,但从现实数据中的实验反复地表明它可以与决定树和神经网络分类算法相媲美[1]。在本文中,我们研究朴素贝叶斯分类算法,用来检测入侵审计数据,旨在开发一种更有效的,检验更加

3、准确的算法。2贝叶斯分类器贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。朴素贝叶斯分类[2]假定了一个属性值对给定类的影响独立于其它属性的值,这一假定称作类条件独立。设定数据样本用一个n维特征向量x={x1,x2,,xn}表示,分别描述对n个属性a1,a2,,an样本的n个度量。假定有m个类c1,c2,,cm。给定一个未知的数据样本x(即没有类标号),朴素贝叶斯分类分类法将预测x属于具有最高后验概率(条件x下)的类,当且仅当p(ci

4、x)>p(cj

5、x),1≤j≤m,j≠i这样,最大化p(ci

6、x)。其中p(ci

7、

8、x)最大类ci称为最大后验假定,其原理为贝叶斯定理:   公式(1)由于p(x)对于所有类为常数,只需要p(x

9、ci)p(ci)最大即可。并据此对p(ci

10、x)最大化。否则,最大化p(x

11、ci)p(ci)。如果给定具有许多属性的数据集,计算p(x

12、ci)p(ci)的开销可能非常大。为降低计算p(x

13、ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系,这样,   公式(2)概率,可以由训练样本估值:(1)如果ak是分类属性,则p(xk

14、ci)=sik/si其中sik是ak上具有值xk的类ci的训练样本数,而s

15、i是ci中的训练样本数。(2)如果ak是连续值属性,则通常假定该属性服从高斯分布。因而公式(3)其中,给定类ci的训练样本属性ak的值,是属性ak的高斯密度函数,而分别为平均值和标准差。朴素贝叶斯分类算法(以下称为nbc)具有最小的出错率。然而,实践中并非如此,这是由于对其应用假定(如类条件独立性)的不确定性,以及缺乏可用的概率数据造成的。主要表现为:①不同的检测属性之间可能存在依赖关系,如protocol_type,src_bytes和dst_bytes三种属性之间总会存在一定的联系;②当连续值属性分布是多态时,可能产生很明显的问题。在这种情况下,考虑分类问题涉及

16、更加广泛,或者我们在做数据分析时应该考虑另一种数据分析。后一种方法我们将在以下章节详细讨论。3朴素贝叶斯的改进:核密度估计核密度估计是一种普便的朴素贝叶斯方法,主要解决由每个连续值属性设为高斯分布所产生的问题,正如上一节所提到的。在[3]文中,作者认为连续属性值更多是以核密度估计而不是高斯估计。朴素贝叶斯核密度估计分类算法(以下称k-nbc)十分类似如nbc,除了在计算连续属性的概率时:nbc是使用高斯密度函数来评估该属性,而k-nbc正如它的名字所说得一样,使用高斯核密度函数来评估属性。它的标准核密度公式为     公式(4)其中h=σ称为核密度的带宽,k=g(x

17、,0,1),定义为非负函数。这样公式(4)变形为公式(5)公式(5)在k-nbc中采用高斯核密度为数据分析,这是因为高斯密度有着更理想的曲线特点。图1说明了实际数据的概率分布更接近高斯核密度曲线。图1两种不同的概率密度对事务中数据的评估,其中黑线代表高斯密度,虚线为核估计密度并有两个不同值的带宽朴素贝叶斯算法在计算μc和σc时,只需要存储观测值xk的和以及他们的平方和,这对一个正态分布来说是已经足够了。而核密度在训练过程中需要存储每一个连续属性的值(在学习过程中,对名词性属性只需要存储它在样本中的频率值,这一点和朴素贝叶斯算法一样)。而为事例分类时,在计算连续值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。