安卓恶意代码检测技术的研究与实现

安卓恶意代码检测技术的研究与实现

ID:23099736

大小:1.79 MB

页数:66页

时间:2018-11-04

安卓恶意代码检测技术的研究与实现_第1页
安卓恶意代码检测技术的研究与实现_第2页
安卓恶意代码检测技术的研究与实现_第3页
安卓恶意代码检测技术的研究与实现_第4页
安卓恶意代码检测技术的研究与实现_第5页
资源描述:

《安卓恶意代码检测技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士专业学位论文PROFESSIONALMASTERDISSERTATION论文题目:安卓恶意代码检测技术的研究与实现论文作者:李振国专业类别/领域:计算机技术指导教师:王全民副教授论文提交日期:2017年5月UDC:004学校代码:10005中文图书分类号:TP391学号:S201407103密级:公开北京工业大学硕士专业学位论文(全日制)题目:安卓恶意代码检测技术的研究与实现英文题目:THERESEARCHANDIMPLEMENTATIONOFANDROID'S

2、MALICIOUSCODEDETECTIONTECHNOLOGY论文作者:李振国专业类别/领域:计算机技术研究方向:信息安全申请学位:工程硕士专业学位指导教师:王全民副教授所在单位:信息学部答辩日期:2017年5月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明

3、确的说明并表示了谢意。签名:李振国日期:2017年5月18日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:李振国日期:2017年5月18日导师签名:王全民日期:2017年5月18日摘要摘要安卓系统使用量的增长使得各种新型恶意代码不断出现,这些恶意代码通常在未经用户允许的情况下运行在用户终端的后台。编写人员利用这些恶意代码来窃取私人信息或

4、投放广告,严重的侵犯了用户合法权益。越来越多的研究人员开始投身于基于安卓平台的恶意代码检测领域,并且把发现的恶意代码公布在互联网公共平台,起到了监督的作用。检测恶意代码的方法主要分为静态检测和动态检测。静态检测主要是分析源代码的结构和配置文件的信息等静态特征,然后再与公共平台上已经公布的恶意代码进行匹配,如果匹配度极高则判断为是恶意的。静态检测方法是非常准确的,这种方法不执行应用程序,能够达到快速的分类,但是不能检测到未知的的新型恶意代码;动态检测主要是在源代码中加入设计好的代码段,通常是放在接口的入口或出口,通过重新编译后再执行来跟

5、踪应用的行为。根据程序是否输出信息来查看接口是否被调用,而且还可以利用程序的顺序执行来分析程序的调用序列,然后判断其逻辑,看是否有越权和调用一些与本身应用功能无关的接口等操作。但是也存在着缺点:首先,手动插入代码工作量较大,需要对源代码非常熟悉并且难以模拟恶意代码被激活的真实环境。其次,安卓系统更新较快,不同的版本需要插入代码段的时间和位置也就不一样,这样就增加了动态分析的复杂性。最近,分类算法被成功地用于检测恶意代码,其中提取特征的重要性决定了分类结果的好坏。本论文面向基于安卓平台的恶意代码检测,提出了一种基于安卓虚拟机(Dalvi

6、k)指令操作符(OpCode)特征的分类算法的检测模型。同时也改进了自然语言处理领域中的N元模型(N-Gram),使用N个OpCode组成一个词语来表示特征,并且利用国内开源的并行深度学习框架(Paddle)进行特征训练,加快了特征训练的速度,不但节省了时间,而且提高了准确率。本文主要工作内容具体如下:(1)通过编写脚本批量反编译安卓应用,汇总每个应用的Dalvik指令,提取其中的OpCode,然后对安卓应用的OpCode进行分类和描述,同时改进N-Gram模型,为了获得一个比较好的N值,分别设置N=1,2,3,4,5,6,通过实验对

7、比来选择最合适的N值,从而为后面的实验做好铺垫。(2)用OpCode序列的词频(TF)和词频逆文档频率(TF-IDF)分别作为特征的值来进行实验,从而选择一种较好的特征表示方法。本论文通过实验证明两者表示效果差别很小,最终选择TF方法,因为随着训练集合的扩大TF-IDF会带来额外的运算。(3)分别选择决策树、随机森林和神经网络作为检测模型的分类器,并且I北京工业大学工程硕士专业学位论文在实现算法的过程中对其进行改进。决策树:用信息增益比作为决策树的特征选择方法,并且将已生成的树进行简化,防止出现过拟合现象;随机森林:实现多个决策树,通

8、过多轮实验的对比设置决策树的个数以及随机森林中各个决策树的高度;神经网络:基于Paddle框架,实现自动编码器(AutoEncode)来对特征进行重构,用尽可能少的信息来表示OpCode特征,建立多层网络,加快了模型训练

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。