基于svm模型的恶意pdf文档检测方法

基于svm模型的恶意pdf文档检测方法

ID:31359555

大小:112.50 KB

页数:8页

时间:2019-01-09

基于svm模型的恶意pdf文档检测方法_第1页
基于svm模型的恶意pdf文档检测方法_第2页
基于svm模型的恶意pdf文档检测方法_第3页
基于svm模型的恶意pdf文档检测方法_第4页
基于svm模型的恶意pdf文档检测方法_第5页
资源描述:

《基于svm模型的恶意pdf文档检测方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于SVM模型的恶意PDF文档检测方法  摘要:该文针对现有的PDF文档检测方案存在准确度低、易混淆等问题提出一种基于SVM模型的智能检测方法,同时结合PDF文档格式分析技术,实现对恶意PDF文档的检测。论文先对PDF文档中JavaScript代码进行定位、提取、解码、去混淆化等处理,得到原始的JavaScript代码。然后对得到的原始JavaScript代码提取相应的特征向量,再利用SVM分类器进行静态检测。最后对检测出来的恶意PDF文档的JavaScript代码中恶意代码部分shellcode部分,利用libemu仿真工具实现行为模拟运行,得到详细的恶意行为报告。实

2、验表明该方法能有效检测出恶意的PDF文档,检测率有所提高,漏报率明显降低。  关键词:PDF文档;JavaScript代码;SVM  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)24-0090-03  Abstract:InordertosolvetheproblemoflowaccuracyandeasytoconfoundinviewoftheexistingPDFdocumentdetectionscheme.Inthispaper,anintelligentdetectionmethodbasedonSVMmodelispropo

3、sed,whichiscombinedwiththePDFdocumentformatanalysistechnologytorealizethedetectionofmaliciousPDFdocuments.First,thepaperonthePDFdocumentJavaScriptcodeforpositioning,extracting,decoding,tobeconfused,and8otherprocessing,gettheoriginalJavaScriptcode.Thenextractthecorrespondingfeaturevectorf

4、romtheoriginalJavaScriptcode,andusetheSVMclassifierforstaticdetection.Finally,themaliciouscodeintheJavaScriptcodeofthedetectedmaliciousPDFcodepartoftheshellcode,usinglibemusimulationtooltoachievethebehaviorofthesimulationrun,getadetailedreportonthemaliciousbehavior.Experimentalresultssho

5、wthatthemethodcaneffectivelydetectthemaliciousPDFdocument,thedetectionratehasincreased,thefalsenegativeratedecreasedsignificantly.  Keywords:PDFdocument;JavaScriptcode;SVM  1背景  2008年以前恶意代码对PDF[1]文档的利用技术还不是很成熟,相应的PDF文档漏洞还比较少,其主要的检测方式都还处在特征码扫描的阶段。随着PDF市场占有率的迅速提高,PDF漏洞也开始增多,因为Office漏洞越来越少,

6、而利用难度也越来越大,同时对恶意Office文档的检测技术已经非常成熟,于是PDF代替Office成为热门的恶意代码的有效载体。由于恶意代码对计算机的严重破坏性,检测和防止含有恶意代码的PDF文档已成为计算机安全领域的重要目标。  目前,针对PDF攻击方式大多数都与JavaScript相关,其检测模型主要有三类:基于特征码的静态检测模型、基于跟踪JavaScript行为的动态检测模型以及动静结合检测模型。2012年,Laskov和NedimSrndic提出了针对PDF文档第一个静态检测模型――8PJScan模型[2]。PJScan模型开创性地实现了从PDF文档中提取Ja

7、vaScript代码,并且真正实现了对恶意JavaScript代码的静态检测。但是该模型也有不足之处。首先,在提取JavaScript代码时没有对JavaScript代码进行去混淆化处理,这样导致提取到的特征向量被无用的信息所充斥,导致有用的特征向量的权值降低,影响检测率。其次,采用的one-classSVM分类算法允许一定比例的样本点超出范围,这样漏报率会提高。  针对以上缺点,本文提出一种基于SVM模型的检测方法,首先对提取到的JavaScript代码进行解码与去混淆化等处理,然后考虑样本规模影响运行速度,使用LibSVM分类器。此外

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。