高效用隐私保护数据挖掘的研究

高效用隐私保护数据挖掘的研究

ID:35103513

大小:2.30 MB

页数:60页

时间:2019-03-17

高效用隐私保护数据挖掘的研究_第1页
高效用隐私保护数据挖掘的研究_第2页
高效用隐私保护数据挖掘的研究_第3页
高效用隐私保护数据挖掘的研究_第4页
高效用隐私保护数据挖掘的研究_第5页
资源描述:

《高效用隐私保护数据挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文高效用隐私保护数据挖掘的研究RESEARCHONPRIVACYPRESERVINGHIGHUTILITYMINING林果哈尔滨工业大学2015年12月国内图书分类号:TP301.6学校代码:10213国际图书分类号:861.004.6密级:公开工程硕士学位论文高效用隐私保护数据挖掘的研究硕士研究生:林果导师:吴祖扬助理教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2015年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP301.6U.D.C:861.004.6Di

2、ssertationfortheMaster’sDegreeofEngineeringRESEARCHONPRIVACYPRESERVINGHIGHUTILITYMININGCandidate:GuoLinSupervisor:AssistantProf.Tsu-YangWuAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefe

3、nce:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要如何在大量且复杂的数据中找出有用的信息,并把这些信息转变成可理解的知识,为决策者提供有力的决策依据,已经成为数据拥有者关心的重点。最早被用于知识分析的是频繁项集挖掘和关联规则挖掘,它们能够从事务数据库中发现商品之间的潜在关系,属于布尔类型的挖掘方式。高效用项集挖掘是频繁挖掘的一种拓展挖掘方式,因为它同时考虑事务中项的数量和效用值,所以可以用它

4、来衡量项集的有用程度。然而在数据的收集和分发传播过程中,数据中存在的一些机密或敏感信息(例如,信用卡号、工资信息或是个人电话号)可以通过数据挖掘的方式将其发现。对于数据拥有者来说,这些敏感和机密信息在数据发布或是共享之前是需要被隐藏的。高效用数据挖掘能发现数据库中的高效用项集,从这些高项用项集能导出一些利益相关的竞争信息,损害数据拥有者的利益。因此,高效用隐私保护数据挖掘已经成了高效用项集挖掘中的一个关键研究议题。本课题的主要目的是研究如何发现和以更小的副作用隐藏高效用挖掘结果中的敏感高效用项集,保证用户在发布和共享数据

5、时不会造成私密信息泄露问题。相对于传统用户给定敏感项集,本研究提出的基于竞争项分析的指定保护项敏感项集发现算法,能根据用户所指定保护项分析出敏感项集。用户可能并不知道什么是要保护的项,所以本研究还提出了另一种自动侦测数据中敏感项集的方法,该方法对每个项集分析得出一个敏感度,然后从这些项集中取出K个具有最大敏感度值的高效用项集作为敏感项集。根据隐藏需求本研究提出了三个基于最大敏感效用值(MSU)的高效用敏感项集隐藏算法,这三种算法根据不同的策略来选择要修改的目标项。由于现有的高效用隐私保护算法副作用评价指标存在一些不足,本

6、论文完善并提出了三种副作用评价指标。实验表明,所提方法的隐藏代价比过去方法平均降低了10%,对密集型数据集则有更好的效果。在数据库效用值相似度、数据库结构相似度和项集效用值相似度上都比已有方法好。在对数据库修改方面,能以更小的事务修改次数和数据库修改次数完成隐藏,从而尽可能地保留数据库中的数据。关键词:高效用隐私保护;项集隐藏;最小副作用;自动侦测;最大敏感信息-I-哈尔滨工业大学工程硕士学位论文AbstractItisthemajorconcernfordataownertofindtheusefulinformati

7、onfromtheamountsofdataandtransformthemtotheunderstandableknowledge.Thosediscoveredknowledgecanbeusedtoprovidethebasisformakingefficientstrategiesordecisions.Thefundamentalwayofknowledgediscoveryindatabases(KDD)isfrequentitemsetmining(FIM)orassociation-rulemining(

8、ARM),whichcanbeusedtofindtheimplicitandpotentialrelationshipsamongthepurchaseitemsinthebinarydatabases.High-utilityitemsetmining(HUIM)isanextensionofFIMwhichco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。