隐私保护数据挖掘研究

隐私保护数据挖掘研究

ID:44318429

大小:115.50 KB

页数:6页

时间:2019-10-20

隐私保护数据挖掘研究_第1页
隐私保护数据挖掘研究_第2页
隐私保护数据挖掘研究_第3页
隐私保护数据挖掘研究_第4页
隐私保护数据挖掘研究_第5页
资源描述:

《隐私保护数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、隐私保护数据挖掘研究隐私保护数据挖掘方法的研究隐私保护数据挖掘方法的研究1.研究背景数据挖掘是近年來十分活跃的研究领域。数据挖掘即提取或挖掘知识。它是从数据中抽取隐含的、未知的和潜在有用的信息。随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集、管理和分析变得越來越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。但与此同时,也帯来了隐私保护方面的诸多问题。比如在医学中,为了分析某种病的发病率,几家医院可能将自C拥有的数据综合起來进行分析,但是这可能涉及病人的隐私或是病人不愿意被别人知道所患的病症而不愿意共享数据。所以必须要采

2、用某些技术于段來控制和预防在数据挖掘过程中隐私信息的泄露问题。所以,如何在数据挖掘过程中解决好隐私保护的问题,前已经成为数据挖掘界的一个研究热点。首先需要明确的是,可能泄露隐私的并不是数据挖掘技术木身,而是数据挖掘方法的特定应用和具体过程。数据挖掘冇一个重耍特征,就是从人量数据中挖掘出来的模式或者规则,通常是针对综合数据而非细节数据。那么,我们是否町以棊于非精确的原始数据而抽取出精确的模式与规则?实现隐私数据的合理保护和基于统计数据的模式抽収两者兼得,正是隐私保护数据挖掘方法的出发点和最终LI标。2.相关知识(1)数据挖掘。简单的说,数据挖掘是指从人量数据小提取和挖掘知识。这和

3、普通的挖掘不一样,这里的挖掘并不是挖掘存在的实体,比如挖掘矿石。这里的挖掘是指从数据中挖掘知识。就是未知的,潜在有用的信息。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的木质区别是数据挖掘是在没有明确假设的前提卜•去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和町实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠首觉发现的信息或知识,其至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越冇价值•在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩丿求布和啤酒之间有着惊人的联系。(2)数据挖掘可以发现的模

4、式类型。i)概念/类描述。特征化和区分;ii)挖掘频繁模式、关联和相关;ill)分类和预测;iv)聚类分析;V)离群点分析;vi)演变分析;(3)隐私。简单地说,隐私就是个人、机构等实体不愿意被外部世界知晓的信息。在具体应用屮,隐私即为数据所有考不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据,如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私,而开放的病人却不视Z为隐私。一般地,从隐私所有者的角度而言,隐私可以分为两类:i)个人隐私(indivi

5、dualprivacy):任何町以确认特定个人或与町确认的个人相关,但个人不愿被暴露的信息,都叫做个人隐私,如身份证号、就诊记录等。ii)共同隐私(corporateprivacy):共同隐私不仅包含个人的隐私,还包含所有个人共同表现出但不愿被眾露的信息。如公司员工的平均薪资、薪资分布等信息。1.隐私保护数据挖掘主要研究方向及研究现状3.1隐私保护数据挖掘的主要研究方向隐私保护在数据挖掘领域的应川主耍町分为3个方向:i)在关联挖掘规则挖掘ii)分类挖掘ill)聚类挖掘3.2研究现状•卜•面就上述三个方向的研究现状进行概述。1)在关联规则挖掘方而。目前主要有两种方法。a)隐藏频繁

6、项Fl集。实际上就是对原始数据进行隐私保护处理來防止涉及隐私及相关的重要信息的关联规则的产生。b)尽可能使涉及隐私规则或信息的置信度远远小于规定的最低苣信度。ii)数据集中分布的隐私保护分类挖掘。主要有两种方法。a)使用随机响应方法。b)添加随机偏移量的方法。iii)聚类挖掘算法方面。主要通过几何转换等对原始数据进行转化,从而达到保护原始数据的效果。3.隐私数据挖掘方法的研究3.1隐私保护数据挖掘的分类冃前隐私保护的数据挖掘方法按照棊本策略主要有数据扰乱法、查询限制法和混介策略。i)数据扰乱法。数据干扰法是对数据进行随机变换、数据离散化和在数据中添加噪声,从而对原始数据进行十扰

7、,然后再针对经过十扰的数据进行挖掘,得到所需的模式和规则。数据扰乱法的代表算法是MASK(MiningAssociationwithSecrecyKonstraints)算法。ii)查询限制的策略。杳询限制策略是通过数据隐藏、数据抽样和数据划分等方式,从而尽量限制数据挖掘者拥有完整的原始数据,再利用概率统计的方法或者分布式计算这些数学方法来得到所需要的挖掘结果。但是这两种策略木身都存在着一些固冇的缺陷。在采用数据干扰策略的方法中,所冇经过干扰的数据均与真实的原始数据相关,而且若数据缺损严重,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。