基于隐私保护决策树分类模型的研究

基于隐私保护决策树分类模型的研究

ID:34589028

大小:1.81 MB

页数:76页

时间:2019-03-08

基于隐私保护决策树分类模型的研究_第1页
基于隐私保护决策树分类模型的研究_第2页
基于隐私保护决策树分类模型的研究_第3页
基于隐私保护决策树分类模型的研究_第4页
基于隐私保护决策树分类模型的研究_第5页
资源描述:

《基于隐私保护决策树分类模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于隐私保护的决策树分类模型的研究Research011Privacy-PreservingDecisionTreeClassificationModel院系(所):专业:研究方向:姓名:指导教师:信,皇堂睦让篡扭辩堂歪让簋拯廛围燕苤—塑握麈壁田筮苤.昱援搓.一.沈雪明二oo四、年十二月华东师范大学顾士学位论文基于隐私保护的决策树分类模型的研究摘要数据挖掘被广泛应用于多个领域,尤其是在如银行、电信、保险、交通、零售等商业领域。但数据挖掘也会带来一些社会问题,其中最敏感的要属隐私保护问题。因此,有必要研究如何在数据挖掘中保护信息隐私,并且建立基于隐私保护的挖掘模型,以保证在挖捌过程中敏感信

2、息的安全。本文主要探讨基于隐私保护的决策树分类模型的构造问题,其中决策树的生成算法采用ID3算法。该问题具体定义为:有两个不同站点,站点A和站点B,欲基于数据集共同构造决策树:站点A和站点B各自拥有数据集的一部分;在构造决策树的同时,必须保证站点A和站点B均不会泄露自己数据的具体字段信息。根据不同的分布情况,数据集可分为:集中式数据集、水平分布数据集和垂直分布数据集。本文对上述三种数据集的保护隐私的决策树构造方法进行了描述与分析,并分别讨论了随机化方法和安全多方计算方法在保护隐私的决策树生成算法中的应用。对于二集中式数据集,应用随机化方法实现建树过程中的隐私保护。首先,采用服从均匀分布或

3、高斯分布的随机变量对原始数据进行变换。其次,应用一种基于贝叶斯理论的重构方法对数据进行重构。最后,在重构的数据上构造决策树。对于数据集水平分布和垂直分布的情况,应用安全多方计算协议实现建树过程中的隐私保护,即参与计算的各站点分别输入保密信息,运用安全计算协议得到随机分享值。针对垂直分布的数据集,本文提出了一种保护隐私的决策树构造方法PVID3算法。该方法与前面提到的基于垂直分布数据的保护隐私的决策树构造方法的不同之处如下:①前者应用的安全协议为标量积协议:PVID3应用的安全协议为安全计算交集协议。②前者需要引入第三方服务器,且假设第三方服务器为半诚信:PVID3无需第三方服务器的参与。

4、③前者要求两方站点的数据集均包含类标号属性:PVID3只要求一方站点包含类标号属性信息。本文给出了基于PVID3算法的决策树分类模型的实现过程,并且对算法的传输开销和计算复杂度进行了分析。关键词:数据挖掘.隐私保护.决策树.垂直分布,水平分布,随机化,安全多方计算,ID3华东师范大学硕士学位论文耩于隐私保护的决策树分类模型的研究AbstractDataminingiswidelyusedinmanyfields,especiallyincommercialfieldssuchasbanks.telecommunications,insurance,transportationandret

5、ailstores.etc.Butsomesocialproblemswillbebroughtbydatamining;privacyprotectionprobleminminingprocessisbecomingamajorconeelTl.Therefore,privacy。preservingdatamininghasemergedtoaddressthisissue.Andhowtobuilddataminingmodelstoprotectsensitiveinformationisworthconslderaii。n,Thisthesisfocusesonprivacy

6、·preservingdecisiontreeclassificationmethods.ID3hasbeenappliedasdecisiontreebuildingalgorithm.Thedecisiontreeclassifierisbuiltunderthefollowingscenario:twodifferentsitesnamedsiteAandsiteB,wanttobuildadecisiontreeclass讯erbasedonsuchadatabasewhichispartitionedintotwopieces,withonepieceownedbysiteAa

7、ndtheotherpieceownedbysiteB.Duringthedecisiontreebuildingprocess,theprivateinformationofbothtwositeswillnotberevealed.Datasetscanbeclassifiedascentralizeddatasets,horizontallypartitioneddatasetsandverticallypartitioned

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。