结合语义的统计机器学习方法在代码安全中应用研究

ID：37027871

大小：7.15 MB

页数：141页

时间：2019-05-20

资源描述：

《结合语义的统计机器学习方法在代码安全中应用研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、摘要摘要近两年美国因病毒、间谍软件等网络攻击损失近85亿美元，而中国大陆更是有数以亿计的大量主机和网络被恶意攻击、破坏和篡改。一方面，种类繁多功能各异的诸如病毒，蠕虫，rootkit，间谍软件等恶意代码层出不穷，黑客攻击方式、手段与过程不断复杂深化；另一方面，信息系统漏洞不断增长，漏洞越来越多。强大的经济利益的驱动使得恶意代码检测与防范问题仍是信息安全届亟需解决的首要问题。攻击者不断升级并复杂化新的攻击手段，防守者根据攻击提出防护措施，例如修补漏洞，注入防护疫苗等；进一步地，攻击者提出新的反检测和规避技术，防护者也要

2、不断更新防护技术。攻防双方不断博弈，两者在动态平衡中，不断将局部的马鞍点向前推进。统计机器学习源于统计，长于关系推理和知识的自动学习，已在文本分析，视频分析，图像理解，语音信号识别取得极好的效果。我们把恶意代码检测与攻击比作一场猫捉老鼠的游戏，统计机器学习能不能有效的扮演“猫"的角色，能不能在已有的恶意代码检测与分析的基础上在如虎添翼?该问题的难点在于安全信息系统的一些特征需求与机器学习应用需求不是完全一致。例如信息安全中，对于误报率和漏报率的容忍度达到了苛刻的程度；对机器学习的结果缺少解释，模型的结果与实际的安全保

3、障之间存在语义上的差距，很多结果在实际中不可行或者严重偏离信息系统程序和系统配置的现实；机器学习算法必须考虑攻击和攻击者各种各样的逃避检测策略。几乎信息安全的所有问题都是攻击者和防守者之间的博弈过程，必须站在双方的角度上着想，才有助于问题的解决。针对代码分析的具体领域，在结合代码分析领域内知识的基础上，我们提出以下问题作为本文的研究对象。a)机器学习能不能在恶意代码或者代码分析中使用?b)在恶意代码检测(扩展到代码分析甚至系统安全中)，能起多大作用，如何使用并使其发挥最大功效?本文将此抽象问题具体化为几个子问题(Q1

4、-Q4)进行细化，并通过具体的案例分析来回答。Q1：如何提取多态蠕虫签名?Q2：如何进行多态shellcode归属性分析?Q3：如何检测迷惑恶意代码?Q4：多线程程序中，如何消除时序相关的不确定性bug?本文关注的恶意代码包含两类，第一类是基于网络包的恶意代码，例如多态蠕虫，通过网络传播的shellcode：第二类是基于文件的恶意代码，例如被攻陷的可执行文件或者动态链接库文件；另外本文还分析了一个多线程程序安全中的案例。针对上述问题，我们进行了下列研究：结合语义和统计特征，对多态蠕虫摘要提取签名；结合语义和统计特征，

5、对多态shellcode进行归属性分析；结合语义特征和统计特征，检测迷惑恶意代码；结合多线程运行的上下文，来推测时序对不确定性bug的影响。我们的工作有以下创新点。a)提出了语义分析和统计分析相结合的代码分析新方法，用于检测或者分类恶意代码文件以及恶意代码包；与语义分析方法相比，融合了统计方法定量描述的特长；与统计方法相比，关注了更多的代码语义特性，使得分析更加接近代码语义本质。b)提出了基于数据流分析的状态转移图签名，用于多态蠕虫签名提取，通过数据流分析去除隐含在网络数据包中的噪声数据，较好刻画蠕虫的多态特性。c)

6、提出了一种结合静态污点分析和混合Markov模型的shellcode归属性分析算法；通过静态污点分析保留语义相关字节，混合Markov模型获取数据包的统计结构特征；比单一的统计分析更加健壮，比仅仅的静态污点分析方法更易于定量描述和进行代码相似性比较。d)提出了一种结合控制流和系统调用特征的迷惑恶意代码检测算法，用于检测迷惑后的恶意代码；控制流和系统调用获取了代码的语义特征，而同时结合统计特征，相互补充，尽可能准确的进行迷惑恶意代码的类别检测。e)提出了使用mI^l，刻画影响多线程运行的上下文，通过上下文(优先级，系统

7、负载，运行时间等)捕获环境对程序运行的影响，并将这种影响进一步量化，为不确定性bug提供分析的依据。通过以上研究，我们发现，结合或者体现某种程度语义的机器学习可以较为有效的应用于代码分析和检测中。结合语义的多态shellcode签名提取和归属性分析的相关技术已经出现在DayZeroSystems产品中，提升多维特征的迷惑恶意代码检测方法已开始应用到下一代智能安全检测产品中(例如Damballa，Inc)。我们相信这些技术将会在智能信息安全检测中得到更广泛应用。关键词：攻击防范机器学习语义数据流分析H删集成学习ABST

8、RACTInthepasttwoyears，theeconomiclosscausedbyvirus，worms，anddifferentkindsofnetworkattackshasbeenreachedtoapproximately8．5billiondollors，inthemainland，therearebillionsandbil

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 141



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

结合语义的统计机器学习方法在代码安全中应用研究

结合语义的统计机器学习方法在代码安全中应用研究

相关文章

相关标签