欢迎来到天天文库
浏览记录
ID:6060731
大小:32.00 KB
页数:9页
时间:2018-01-01
《云计算平台上实现30年气候资料整编方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、云计算平台上实现30年气候资料整编方法 作者简介:杨润芝(1981—),女,黑龙江哈尔滨人,工程师,硕士,研究方向:云计算、计算机在气象领域的应用(E-mail:yangrz@cma.gov.cn);肖卫青(1984—),男,河北保定人,助理工程师,硕士,研究方向:云计算、计算机在气象领域的应用、编解码。摘要:国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算。由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使
2、用成为本文的主要研究目标。通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现。通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验。关键词:云计算;Hadoop;MapReduce计算模型;气候资料整编中图分类号:TP39文献标识码:A1业务现状9中国30年气候整编资料作为重要气候资料的一种,己在很多天气、气候、模式计算等方面使用。目前国家气象信息中心用于30年气候资料整编的软件
3、是单机单进程模式,运行在PC机上。由于整编运算要使用国家级地面站(2400多个站)、30年的数据,数据总量大,所以完成一次整编计算需要耗时10多天(不间断运行)。并且整编结果出来后,业务工作中需要检查计算结果,并对整编算法或算法中的参数进行多次修改和调整,每次修改后,都需要重新再次计算,所以导致整编工作耗时较长。目前,气象部门基于云平台开发的科学计算还非常少,气象业务中的大规模科学计算如模式运算等一般运行在高性能服务器集群上,模式算法本身支持并行计算和高性能环境。但是由于高性能资源和节点个数的限制,除模式运
4、算外的大部分通用和常规计算一般均依靠单机或集群间多进程通信开发。所以,探索和开展通用计算在云平台的实现也成为本文的研究重点和目标[1,2]。2云计算架构2.1Hadoop分布式框架Hadoop起源于ApacheNutch,后者是一个开源的网络搜索引擎,本身也是由Lucene项目的一部分[7]。Hadoop提供给组件分布式系统的工具包括数据存储、数据分析等。Hadoop是一个分布式计算基础架构下的相关子项目的集合。这些项目属于Apache软件基金会,后者为开源软件项目社区提供支持[3,4]。9Hadoop框架
5、中,HDFS和MapReduce分别是对GoogleGFS和GoogleMapReduce的开源实现。本文所做的研究和试验均基于Hadoop搭建分布式的计算环境而开展,数据源存储在HDFS文件系统中,利用MapReduce编程模型实现30年气候资料整编算法的运算流程和任务调度。2.2文件系统结构HDFS集群有两种节点,以管理者-工作者(masterworker)的模式运行,即一个名称节点(namenode)和多个数据节点(datanode)[8]。名称节点管理文件系统的命名空间。它维护着这个文件系统树及这个
6、树内所有的文件和索引目录。这些信息以命名空间镜像和编辑日志的形式将文件永久保存在本地磁盘上。名称节点也记录着每个文件的每个块所在的数据节点,但它并不永久保存块的位置。因为这些信息会在系统启动时有数据节点重建[5,6]。客户端代表用户通过与名称节点和数据节点交互来访问整个文件系统。客户端提供一个类似POSIX(可移植操作系统界面)的文件系统接口,因此用户在编程时并不需要知道名称节点和数据节点及其功能。数据节点是文件系统的工作者。它们存储并提供定位块服务(被用户或名称节点调用时),并且定时的向名称节点发送它们存
7、储的块的列表。9客户端通过调用FileSystem对象的open()来读取希望打开的文件,对于HDFS来说,这个对象是分布式文件系统的一个实例。DistributedFileSystem通过使用RPC来调用名称节点,以确定文件开头部分的位置。对于每个块,名称节点返回具有该块副本的数据节点地址。客户端对输入流调用read()。存储着文件开头部分的块的数据节点地址DFSInputStream随即与这些块最近的数据节点相连接。通过在数据流中重复调用read(),数据会从数据节点返回客户端。330年气候资料整编设计
8、与实现3.1累年日平均气温计算流程如图3所示,是在云计算模式和传统单机模式下两种运算流程。以下分别对两种计算流程的具体步骤进行说明:1)单机模式:以30年累年日平均气温算法为例,传统整编软件采用单进程顺序执行策略,主要计算步骤如下:(1)主程序依次顺序读取用户指定的文件夹(目录)下的每个A文件。当计算30年累年日平均值时,需要依次顺序读取360(30*12)个A文件,解析每个A文件中每日4次或24次气温值,并根据
此文档下载收益归作者所有