java 开发分析大数据

java 开发分析大数据

ID:26163249

大小:103.50 KB

页数:11页

时间:2018-11-25

java 开发分析大数据_第1页
java 开发分析大数据_第2页
java 开发分析大数据_第3页
java 开发分析大数据_第4页
java 开发分析大数据_第5页
资源描述:

《java 开发分析大数据》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Java开发2.0:用HadoopMapReduce进行大数据分析成堆的数据如何变成信息金矿ApacheHadoop是目前分析分布式数据的首选工具,和大多数Java™2.0技术一样,是可扩展的。从Hadoop的MapReduce编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。·内容Google在2001年发布图像搜索功能时,只有2.5亿索引图像,不到10年,这个巨大的搜索功能已经可以检索超过100亿个图像了,每分钟有35小时的内容上传到YouTube。据称,Twitter每天平均处理5500万tweet。今年早些时候,搜索功能每天记录6亿条查询记录。这 就是我们

2、讨论大数据的意义所在。关于本系列从Java技术首次亮相以来,Java开发的格局已经发生了巨大的变化。得益于成熟的开源框架和可靠的租用式部署基础设施,现在已经可以迅速经济地汇编、测试、运行和维护Java应用程序了。在 本系列 中,AndrewGlover将探索使这种全新开发范例成为可能的各种技术和工具。如此大规模的数据一度仅限于大企业、学校和政府机构—这些机构有能力购买昂贵的超级计算机、能够雇用员工保障其运行。今天,由于存储成本的降低和处理能力的商品化,一些小公司,甚至个人都可以存储和挖掘同样的数据,推动新一轮的应用程序创新。大数据革命技术之一是MapReduce,一个编程模式,是

3、Google针对大规模、分布式数据而开发的。在本文中,我将介绍Apache的开源MapReduce实现,Hadoop,也有人将其称之为云计算的杀手应用程序。关于HadoopApache的Hadoop框架本质上是一个用于分析大数据集的机制,不一定位于数据存储中。Hadoop提取出了MapReduce的大规模数据分析引擎,更易于开发人员理解。Hadoop可以扩展到无数个节点,可以处理所有活动和相关数据存储的协调。Hadoop的众多特性和配置使其成为一个十分有用且功能强大的框架,其用途和功能令人惊讶。Yahoo!以及其他许多组织已经找到了一个高效机制来分析成堆的字节数。在单个节点上运行

4、Hadoop也很容易;您所需要的只是一些需要分析的数据,以及熟悉一般的Java代码。Hadoop也可和Ruby、Python以及C++一起使用。了解更多MapReduce如果您是本系列的读者,您可能已经见过MapReduce一两次了。在“通过CouchDB和Groovy的RESTClient实现REST”中,我介绍了CouchDB如何利用MapReduce进行查看,接着在“MongoDB:拥有RDBMS特性的NoSQL数据存储”中我再次提到MapReduce,处理MongoDB文档的机制。作为处理大数据集的概念框架,MapReduce对于使用许多计算机来解决分布式问题而言是高度优

5、化的。顾名思义,这个框架由两个函数构成。map 函数专用于获取大数据输入,并将其分成小片段,然后交由其他进程进行操作。reduce 函数整理 map 收集的各个回应,然后显示最后的输出。在Hadoop中,您可以通过扩展Hadoop自身的基类来定义 map 和 reduce 实现。实现和输入输出格式被一个指定它们的配置联系在一起。Hadoop非常适合处理包含结构数据的大型文件。Hadoop可以对输入文件进行原始解析,这一点特别有用,这样您就可以每次处理一行。定义一个 map 函数实际上只是一个关于确定您从即将输入的文本行中捕获什么内容的问题。回页首数据,无处不在的数据!美国政府产生

6、大量数据,只有一部分是普通民众所感兴趣的。各种政府机构免费发布关于US经济健康状况和更改社会人口统计资料的数据。U.S.GeologicalSurvey(USGS)发布国内外地震数据。世界各地每天都有很多个小型地震发生。其中大多数发生在地壳深处,没有人能感觉到,尽管如此,但是监听站仍然会进行记录。USGS以CSV(或逗号分隔值)文件的格式发布每周地震数据。每周文件平均不是很大—只有大约100KB左右。但是,它可以作为学习Hadoop的基础。记住,Hadoop有能力处理更 大的数据集。跟踪震动我近期从USGS网站下载的CSV文件有大约920多行。如清单1所示:清单1.清单1.一个U

7、SGS地震数据文件的行数统计$>wc-leqs7day-M1.txt920eqs7day-M1.txtCVS文件内容如清单2所示(这是前两行):清单2.清单2.CVS文件的前两行$>head-n2eqs7day-M1.txtSrc,Eqid,Version,Datetime,Lat,Lon,Magnitude,Depth,NST,Regionci,14896484,2,"Sunday,December12,201023:23:20UTC",33.3040,-116.4130,1.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。