欢迎来到天天文库
浏览记录
ID:50076599
大小:6.28 MB
页数:60页
时间:2020-03-04
《基于局部敏感性哈希的代码相似性检测技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、1.50058WB?中;己投55;化钟Ml郎处償Ji^i|i|麵lBG丽感!奮心,麵I醇驗吟,補IMiMMiM—l—tL*—HHB^'论文题目:基于局部敏感性哈希的代码觀性疆誦工程领域:繼技术遵漏璧蠢学习方式:囚全日制攻读G在职攻读李思宇SBdti:^作者姓名'学校导师:^?HHHMW^企业副巾:^!--完成20170112日期:’BJ痛■羅^9画画醒誦醒瞧!麵醒匿独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研
2、究成果,,除了文中特别加^斗标注和致谢之处外论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得天津工业大学或其他教育机构的学位或证书而使用过的材料一同工作的同志对本研究所做的任何贡献均己在论文。与我中作了明确的说明并表示了谢意。>2又学位论文作者签名:签字日期:心(月^日^学位论文版权使用授权书本学位论文作者完全了解天津工业大学有关保留、使用学位论文的规定。特授权丞莲王坐去尝将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编供查阅和借阅。同意学校向国家有关
3、部口或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:〇^/^i签字日期W么月从1文:I年^日签字日期:平月化!?学位论文的主要创新点一、将局部敏感性哈希应用在离维源代码关键信息矩阵中巧近邻搜索,_得到相似对查询结果10%。,实3金表明比传统方法效率高乂约摘要随着社会的进步,软件系统被广泛运用在日常生活的各个方面,软件系统的代码量不断提升。各类软件系统都有可能面临系统重构和知识芦反保护的需求,返就需要对于软件系统源代码进巧相似性检测。但是,近
4、些年提出的检测技术对一检测效率的提升还有进步提高的空间。?本文通过将局部敏感性哈希应用在高维源代码关键信息炬阵中的近邻捜索,从而快速的得到相似对查询结果。源代码会首先被进行预处理,将源化码转换成-ram-raqg的标识序列。代码段的qgm标识序列集合通过基于Jplag酌相似代码块检测技术进行分类并利用局部敏感性哈希算法将分类结果放置到不同的桶中,在桶中的数巧会被重新组织为前缀树形式的数据结构。为了定位不同代码集合中的.巧似代码对,需要对查询代码段进行相同的哈希运算,可得到相似概率大于给定阀值的代码块前缀树,利用
5、前缀树的搜索算法对相似代码对进行准确的定位。■由于在使用局部敏惑性哈希进行分类的过程中就己经将相似的巧码块分到同一个桶中,所1^可1^有效的降低无效查找的时间成本,提高处理效率。本文对基于局部敏感性哈希的代码相似性检测方法进行了研究与分析,提出T使用局部敏感性哈希进行相似代码对快速检索的方法。实验证明了相化原有方法本文提出的方法处理效率提高了约10%。关键词:代码相似性;局部敏感性哈希;相似性检测;ABSTRACTWiththedevelopmentofthesocietythesoftwaress
6、temiswidelusedinall,yyaspectsofdailylife.Allkindsofsoftwaresystraisarelikelytofacetheneedofsystemreconstructionandintellectualpropertyprotection.However,inrecentyears,theeficiencyofdetection化chnologyarenotimprovedsigni巧cantly.Int
7、hisaerwealthelocalsensitivehash化thenearestnei班borsearchinpp,ppythekeyinformationmatrixoftheGaoWeiyuancodesothatwecanettiesimilar,gresu-lt.Thesourcedewi。bererocessedthefcecodewillbeconvertedintocosoi,ppqgramidentificationsequenc
8、e.Throu班thesimilarJplacodeblockdetection|technologybasedonthec
此文档下载收益归作者所有