大数据环境下的隐私保护问题评估分析

大数据环境下的隐私保护问题评估分析

ID:28216571

大小:74.00 KB

页数:6页

时间:2018-12-08

大数据环境下的隐私保护问题评估分析_第1页
大数据环境下的隐私保护问题评估分析_第2页
大数据环境下的隐私保护问题评估分析_第3页
大数据环境下的隐私保护问题评估分析_第4页
大数据环境下的隐私保护问题评估分析_第5页
资源描述:

《大数据环境下的隐私保护问题评估分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据环境下的隐私保护问题评估分析白萍夏辉杜庆东沈阳师范大学科信软件学院摘要:人类已步入大数据时代,大数据时代下的商业价值较高,通过实现对大数据的挖掘及分析,能够得到具有较高经济利益及价值的数据。在大数据技术不断进步的过程屮,企业能够在个人不知情或者无法控制的情况下对个人数据进行收集及分析并且使用。在没有通过用户允许的情况下获得个人数据的行为对个人隐私进行了侵犯,所以目前人们在大数据环境下对于个人的隐私保护问题越来越担心,隐私问题也得到了人们的广泛关注,国内外的企业及政府在隐私保护方面也进行了全新的研宄及尝试。在此背景下,该文就对大数据中的隐私保护问题进

2、行全面的研宄。关键词:大数据;隐私保护;评仍;作者简介:白萍(1977一),女,辽宁沈阳人,沈阳师范大学讲师,硕士。收稿日期:2017-07-18基金:辽宁省自然科学基金资助项目(2014020118)Received:2017-07-18在网络技术和通信技术不断成熟,并且网络通信带宽不断增加的过程中,大量的客户信息、医疗信息、交易信息等和个人隐私相关的信息都通过电子化的方式进行存储及管理,以此成为了大数据系统,现代相应学术界对于大数据的分析使用及深入挖掘的研究,并且得到了一定的研宂成果。但是因为大数据分析及整合使用的研宄使大数据问题被人们所重视,尤其是

3、个人数据隐私保护问题,其是大数据研宄过程中的重点内容。比如数据库服务层的安全隐私保护与数据完整性、机密性方面问题,隐私保护查询和访问控制问题等。在此背景下,隐私保护数据挖掘也成了全新的研究方向,人们也逐渐提出了全新的隐私保护数据挖掘的方法。现代大部分的隐私保护数据挖掘都是在分布式环境屮使用,但是还是存在保护程度较低、计算量较大及通信造价较高的问题。那么本文就面向分布式情况下,研究隐私数据的挖掘及保护。1隐私保护数据挖掘的方法在数据挖掘技术不断发展的过程中,其中的隐私问题也备受人们的关注,隐私泄露会导致个人人身及财产安全出现威胁,那么如何保证数据挖掘的精准

4、度,并且对数据敏感信息进行有效保护是现代研宄人员需要考虑的问题,其主要目的是使用某项技术对原始数据进行修改和加密,导致数据在通过挖掘之后不会被泄露[1],其主要方式包括:其一,数据分布。根据数据分布的方式将隐私数据保护技术分为集中式及分布式两种,集中式数据是指所有的数据都在一个站点中集中。分布式又分为水平及垂直两种划分方式,水平划分指的是数据在多站点中,不同站点括部分属性的记录。垂直划分指的是数据在多站点中,不同站点记录所有属性。其二,数据修改。数据修改指的是将原來的原始数据的值进行修改,主要包括扰动、取样、阻塞、聚合及交换。其三,数据挖掘算法。主要包括

5、分类、聚类、关联规则挖掘及决策树,是通过不同数据挖掘算法进行分类。其四,隐私保护。主要包括基于重建、基于加密及基于启发式三种技术。其五,隐私保护对象。即对敏感的规则及数据进行隐藏m。阁1为敏感数据的隐藏模型。目前使用较多的技术为敏感数据隐藏、数据扰动技术和安全计算等,数据扰动技术是在数据公布之前对其进行改变,从而使其伪装成敏感数据,并且将其中的属性进行部分保留,其主要目的是攻击人员无法得到敏感信息,从而有效提高数据挖掘结果和原始数据结果的精准度DL图1敏感数据隐藏模型下载原图2分布式数据挖掘在计算技术及通信技术不断发展及进步的过程屮,数据的数量也在不断地

6、增长,但是大部分数据都是在不同场所进行存储,以此提高了分布式存储数据对数据模型寻找的需求,分布式数据挖掘指的是对不同场所的数据进行挖掘。在分布式数据挖掘中,各方都贡献自己的数据,从而能够通过合并数据对模型进行完善。为了能够得到全面的数据模型,那么要求分布式数据挖掘对不同区域中的问题进行解决Ill。在数据挖掘中,能够根据数据分布将其分为集中式和分布式,分布式数据挖掘就是在分布式数据环境中使用的技术,是数据挖掘方面的主要内容,分为水平及垂直两种分布方式,其中的数据表集合为全局数据表。参与方在分布式数据挖掘中要求自身数据不被共享,因为暴露数据就表示隐私被暴露,

7、自身利益会受到威胁。所以传统集中式的隐私保护挖掘在分布式环境中已经不使用,被现代面向分布式的数据挖掘隐私保护替代,其主要优点为:其数据拥有者较多,能够通过消总实现信总传递;站点资源受到限制;数据存在敏感信总。在分布式数据挖掘屮的衡量指标为通信量,部分面向分布式的隐私保护都要降低通信次数,在分布式环境中将站点信息传送到其他站点,比如直接传输、网络传输等m。3面向Hadoop的数据挖掘平台3.1数据挖掘的步骤数据挖掘会在不同领域中展现出不同的流程,不同数据挖掘技术的特性及使用步骤都各不相同,从而导致数据挖掘存在一定的差异。所以,数据挖掘过程屮的形式化、标准化

8、及系统化具有重要的作用,图2为一般数据挖掘步骤。图2数据挖掘的步骤下载原图3.2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。