大数据下mongodb数据库档案文档存储去重研究

大数据下mongodb数据库档案文档存储去重研究

ID:34112995

大小:151.50 KB

页数:13页

时间:2019-03-03

大数据下mongodb数据库档案文档存储去重研究_第1页
大数据下mongodb数据库档案文档存储去重研究_第2页
大数据下mongodb数据库档案文档存储去重研究_第3页
大数据下mongodb数据库档案文档存储去重研究_第4页
大数据下mongodb数据库档案文档存储去重研究_第5页
资源描述:

《大数据下mongodb数据库档案文档存储去重研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据下MongoDB数据库档案文档存储去重研究-电气论文大数据下MongoDB数据库档案文档存储去重研究贺建英(四川文理学院计算机学院,四川达州635000)摘要:针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过文件MD5校验码值是否相同来进行去重研究,并实现去重的程序代码,有一定的实际意义。采用的分布式存储数据库增强了档案文档存储系统的可扩展性。实验表明,该方法能

2、有效地去除重复的档案文档,提高查询效率。关键词:MongoDB;MD5;大数据;档案文档去重;GridFs中图分类号:TN911?34;TP311文献标识码:A文章编号:1004?373X(2015)16?0051?05收稿日期:2015?03?20基金项目:国家档案局项目:基于大数据的档案数据去重模型与方法研究(2014?X?65);四川省教育厅一般项目:大数据环境下NoSQL数据库应用研究(14ZB0313)0引言随着信息技术的飞跃发展,各国各地都在大力发展电子政务建设。在此环境下档案局的档案文档也跨入了信息化存储的行列。但档案局的档案类型种类较多,除了

3、纯文本的之外,还有图片、声音、视频、PDF等各种类型的文档,这些文档都是非结构化的数据,在传统的信息系统中,存放这些数据是比较困难的。因此在大数据环境下,设计信息化档案存储系统会首选非结构化的数据库,即NoSQL数据库。利用NoSQL家族中的Mon?goDB数据库作为存放档案文档的非结构化数据是较为理想的。MongoDB对存放大量的非结构化数据有很大的优势,但因MongoDB本身就是非结构化的,故在存放信息时会产生重复的数据。有人提出了像在关系数据库中一样建立关键索引来解决重复数据的问题,但在以文档方式存储的数据而言,当数据很大时,这种方式将会有弊端。本文研

4、究的是在存储档案文档之前就重复的数据进行去重处理,然后再存入MongoDB数据库中,这样在数据库中存放的将是非重复的数据。1传统的档案存储分析在原有的存储档案文档信息系统中,主要是把文档以文件的形式存放在文件系统中,然后用原数据信息建立一个档案文件和数据库的链接,并把该链接的路径存储在关系数据库中,如表1和表2所示。通过表1和表2的分析可知,表2中filePathId与表1中的filePathId中的字段关联,这样在访问表1中的某个文件时,只需要访问表2中与filePathId字段关联的记录的fileRealPath的值即可访问该文件。对于以文件系统方式存放

5、的档案文件会产生大量的重复文件。即使在存储的时候能简单的通过人工的方式来检查是否有重复的文件存放,但也不能大面积的检查是否有重复的文件,在这种方式下,存储空间很快会被耗尽,要靠不断的增加存储设备来解决大量档案数据存放的问题,而且不利于管理,数据极其不安全,扩展性较差。人们对此已有逐步的认识,也进行了相应的研究。本文的重点是利用MongoDB数据库来存储这些非结构化的数据,并且在存放之前就完成对重复档案文档的去重操作。2基于MongoDB的文档存储模型2.1MongoDB的存储机制MongoDB是NoSql家族中的一员,具有模式自由等特性。它与关系数据库一样具

6、有3个层次:分别是数据库层、集合层、文档对象层。分别对应关系数据库中的数据库、表和记录。在MongoDB中文档类似于JSON的键/值对,集合则是一组文档的集合,它们是无模式限制的。MongoDB数据库非常适合实时数据的插入、查询、更新、删除及数据备份等操作。尤其适合充当由几十台或者几百台服务器组成的集群数据库。现在大多数的地理规划等领域都在利用MongoDB数据库进行数据存储。MongoDB数据库不仅支持分布式系统,它本身还支持分片存储数据(Mongod)、客户端请求(Clients)、集群配置(ConfigServer)和路由协议(Mongos)[1]。它

7、采用的是内存映射的方式作为存储引擎,能有效地提高输入/输出的效率[2]。2.2MongoDB数据库中重复数据来源目前的档案管理系统还处于信息孤岛的层面,各个省市的数据结构不同,存放的方式也不同,惟一能统一的是从市级单位及其下级单位,如区、县、乡、镇单位。利用档案管理系统上传档案文件进行存储的也是这些相关单位。如果同一份档案文档被市级单位分发到其他单位,其他单位会把它作为重要档案文档给上传到档案管理系统中存储起来,这样就会产生多个重复的档案文档。而有部门在不知道的情况下,同一个人上传了几份相同的档案文档;或者利用shp文件批量上传档案文档时遇到其他异常情况,没

8、有一次性的上传完,下次再上传的时候,又是从头开始上传

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。