基于局部敏感性哈希的代码相似性检测技术研究.pdf

基于局部敏感性哈希的代码相似性检测技术研究.pdf

ID:50076599

大小:6.28 MB

页数:60页

时间:2020-03-04

基于局部敏感性哈希的代码相似性检测技术研究.pdf_第1页
基于局部敏感性哈希的代码相似性检测技术研究.pdf_第2页
基于局部敏感性哈希的代码相似性检测技术研究.pdf_第3页
基于局部敏感性哈希的代码相似性检测技术研究.pdf_第4页
基于局部敏感性哈希的代码相似性检测技术研究.pdf_第5页
资源描述:

《基于局部敏感性哈希的代码相似性检测技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1.50058WB?中;己投55;化钟Ml郎处償Ji^i|i|麵lBG丽感!奮心,麵I醇驗吟,補IMiMMiM—l—tL*—HHB^'论文题目:基于局部敏感性哈希的代码觀性疆誦工程领域:繼技术遵漏璧蠢学习方式:囚全日制攻读G在职攻读李思宇SBdti:^作者姓名'学校导师:^?HHHMW^企业副巾:^!--完成20170112日期:’BJ痛■羅^9画画醒誦醒瞧!麵醒匿独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研

2、究成果,,除了文中特别加^斗标注和致谢之处外论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得天津工业大学或其他教育机构的学位或证书而使用过的材料一同工作的同志对本研究所做的任何贡献均己在论文。与我中作了明确的说明并表示了谢意。>2又学位论文作者签名:签字日期:心(月^日^学位论文版权使用授权书本学位论文作者完全了解天津工业大学有关保留、使用学位论文的规定。特授权丞莲王坐去尝将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编供查阅和借阅。同意学校向国家有关

3、部口或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:〇^/^i签字日期W么月从1文:I年^日签字日期:平月化!?学位论文的主要创新点一、将局部敏感性哈希应用在离维源代码关键信息矩阵中巧近邻搜索,_得到相似对查询结果10%。,实3金表明比传统方法效率高乂约摘要随着社会的进步,软件系统被广泛运用在日常生活的各个方面,软件系统的代码量不断提升。各类软件系统都有可能面临系统重构和知识芦反保护的需求,返就需要对于软件系统源代码进巧相似性检测。但是,近

4、些年提出的检测技术对一检测效率的提升还有进步提高的空间。?本文通过将局部敏感性哈希应用在高维源代码关键信息炬阵中的近邻捜索,从而快速的得到相似对查询结果。源代码会首先被进行预处理,将源化码转换成-ram-raqg的标识序列。代码段的qgm标识序列集合通过基于Jplag酌相似代码块检测技术进行分类并利用局部敏感性哈希算法将分类结果放置到不同的桶中,在桶中的数巧会被重新组织为前缀树形式的数据结构。为了定位不同代码集合中的.巧似代码对,需要对查询代码段进行相同的哈希运算,可得到相似概率大于给定阀值的代码块前缀树,利用

5、前缀树的搜索算法对相似代码对进行准确的定位。■由于在使用局部敏惑性哈希进行分类的过程中就己经将相似的巧码块分到同一个桶中,所1^可1^有效的降低无效查找的时间成本,提高处理效率。本文对基于局部敏感性哈希的代码相似性检测方法进行了研究与分析,提出T使用局部敏感性哈希进行相似代码对快速检索的方法。实验证明了相化原有方法本文提出的方法处理效率提高了约10%。关键词:代码相似性;局部敏感性哈希;相似性检测;ABSTRACTWiththedevelopmentofthesocietythesoftwaress

6、temiswidelusedinall,yyaspectsofdailylife.Allkindsofsoftwaresystraisarelikelytofacetheneedofsystemreconstructionandintellectualpropertyprotection.However,inrecentyears,theeficiencyofdetection化chnologyarenotimprovedsigni巧cantly.Int

7、hisaerwealthelocalsensitivehash化thenearestnei班borsearchinpp,ppythekeyinformationmatrixoftheGaoWeiyuancodesothatwecanettiesimilar,gresu-lt.Thesourcedewi。bererocessedthefcecodewillbeconvertedintocosoi,ppqgramidentificationsequenc

8、e.Throu班thesimilarJplacodeblockdetection|technologybasedonthec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。