搭建基于云计算的海量数据挖掘平台 研究实现

搭建基于云计算的海量数据挖掘平台 研究实现

ID:8550094

大小:1.97 MB

页数:9页

时间:2018-04-01

搭建基于云计算的海量数据挖掘平台 研究实现_第1页
搭建基于云计算的海量数据挖掘平台 研究实现_第2页
搭建基于云计算的海量数据挖掘平台 研究实现_第3页
搭建基于云计算的海量数据挖掘平台 研究实现_第4页
搭建基于云计算的海量数据挖掘平台 研究实现_第5页
资源描述:

《搭建基于云计算的海量数据挖掘平台 研究实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、搭建基于云计算的开源海量数据挖掘平台赵华茗(中国科学院国家科学图书馆北京100190)【摘要】本文通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术XEN和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出了实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:一、搭建动态虚拟的云计算环境,二、安装制作HADOOP虚拟服务器模板,三、配置运行Cloudera和ClouderaDesktop。通过开源EMR架构的应用,可以效解决服务器蔓延问题,提高网络计算资源的利用效率

2、和分布式数据挖掘服务的快速布署能力及灵活性。【关键词】云计算;海量数据挖掘;虚拟技术;分布式计算;xen;Cloudera;Hadoop;【分类号】TP393BuildingtheOpenSourceMassDataMiningPlatformBasedonCloudComputingZhaoHuaming(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)【Abstract】Aimstomeettheinternaldataprocessingneedsofinformationorg

3、anizations,thispaper,byanalyzingtheframeworksofAmazonelasticmap/reduce(EMR)platform,putsforwardtobuildthedynamicandelasticopensourcemassdataminingplatformbasedonCloudComputing,andprovidesaroadmapofsuccessfulimplementation,anexampleofmassivetextdataprocessingandtheanalysisofadvantageofopen

4、sourceEMRplatform.Thisimplementationplanincludesthreeparts:1.buildingdynamicvirtualenvironmentofcloudcomputing;2.creatingthevirtualservertemplateofHADOOP;3.deployingandrunningClouderaandClouderaDesktop.ThroughtheapplicationoftheopensourceEMRplatform,wecansolvetheproblemofserversprawleffec

5、tivelytoimproveutilizationratioofnetworkcomputingresourceandtoenhancetherapiddeploymentcapabilityandagilityofdistributeddataprocessingservices.【Keywords】cloudcomputing;massdatamining;virtualization;distributedcomputing;xen;Cloudera;Hadoop1引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的IDC的研究报告指出2010年全球信息量将

6、进入ZB时代,并且每年以60%的速度在上升,这意味着每18个月全球信息数据量将被翻倍[1]。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式的支持。云计算因为其弹性可伸缩的计算模式,受到以IBM、亚马逊、谷歌等为代表的众多高科技公司的重视,成为各公司应对海量信息处理的利器。近年来,出现了众多各具特色的云计算应用产品,包括应用在服务托管领域的亚马逊弹性云,著名的谷歌搜索,ZOHO在线办公应用等等。而应用在海量数据存储挖掘领域的典型

7、云计算应用也出自于亚马逊公司,即亚马逊的HADOOP架构服务,亚马逊称其为弹性MR(ElasticMapReduce,EMR)[2,3],整体架构图如图1所示。EMR框架分为三部分,控制接口(AWSConsole)、存储服务(AmazonSimpleStorageService,S3)和弹性计算(AmazonElasticComputeCloud,EC2)。通过EMR平台,企业、研究人员、数据分析师可以花费较少的费用轻松处理大数据集而不用担心计算设备问题。显而易见,随着数据宇宙时代的到来,这种新的动态可伸缩的数据处理模式必将在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。