hadoop实战培训-传智播客

hadoop实战培训-传智播客

ID:38564209

大小:627.51 KB

页数:56页

时间:2019-06-15

hadoop实战培训-传智播客_第1页
hadoop实战培训-传智播客_第2页
hadoop实战培训-传智播客_第3页
hadoop实战培训-传智播客_第4页
hadoop实战培训-传智播客_第5页
资源描述:

《hadoop实战培训-传智播客》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、—高级软件人才实作培训专家!Hahoop培训讲师:刘刚海量数据处理平台架构一般网站把用户的访问行为记录以apach日志的形式记录下来了,这些日志中包含了下面一些关键字段:client_ip,user_id,access_time,url,referer,status,page_size,agent因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。简单算了一下:(1)网站请求数:1kw/天(2)每天日志大小:450Byte/行*1kw=4.2G,(3)日志存储周期:2年一天产生4.5G的日志,2年需要4.2G*2*365=3.0T解决方案:

2、为了方便系统命令查看日志,不压缩,总共需要3.0T的空间,刚好有一些2U的服务器,每台共1T的磁盘空间。为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。所有的数据都汇聚到这几台LogBackup服务器上来了。2有了LogBackup服务器,离线统计就可以全部在这些服务器上进行了。在这套架构上,用wc、grep、sort、uniq、awk、sed等系统命令,完成了很多的统计需求,比如统计访问频率较高的client_ip,某个新上线的的页面的referer主要是哪些网站。当业务

3、的迅猛发展,网站流量爆发增长,产品经理如果想从中获取更多的用户特征和用户信息,就需要我们这些数据分析人员从不同的日志中找到令他们满意的答案。如果(1)日志总行数:10亿/天(2)每天日志大小:450Byte/行*10亿=420G,(3)日志种类:5种3Hadoop能解决哪些问题海量数据需要及时分析和处理。海量数据需要深入分析和挖掘。数据需要长期保存问题:磁盘IO成为一种瓶颈,而非CPU资源。网络带宽是一种稀缺资源硬件故障成为影响稳定的一大因素Hadoop在国内的情景奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop

4、集群并进行下载京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)广告类公司:存储日志,通过协调过滤算法为客户推荐广告Yahoo:垃圾邮件过滤华为:云计算平台Facebook:日志存储,实时分析某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现某学校:学生上网与社会行为分析,使用hadoop淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的Hadoop开发人员市场需求和待遇Hadoop在国内的人才储备Hadoop介绍1)作者:DougCutting2)用Java编写的开源系统,能够安排在大规模的

5、计算平台上,从而长进计算效率。3)Nutch搜索引擎里面的一个模块。4)受Google三篇论文的启发---MapReduceGFSBigtable5)googlehadoopmapreducemapreduceGFSHDFSBigtableHbaseHadoop生态系统介绍Hbase1)Nosql数据库,Key-Value存储2)最大化利用内存HDFS1)hadoopdistributefilesystem分布式文件系统2)最大化利用磁盘MapReduce1)编程模型,主要用来做数据的分析2)最大化利用CPUHDFS篇HDFS设计原则文件以块(block

6、)方式存储每个块带下远比多数文件系统来的大(预设64M)通过副本机制提高可靠度和读取吞吐量每个区块至少分到三台DataNode上单一master(NameNode)来协调存储元数据(metadata)客户端对文件没有缓存机制(Nodatacaching)HDFS系统结构NameNode(NN)NameNode主要功能提供名称查询服务,它是一个jetty服务器NameNode保存metadate信息包括文件owership和permissions文件包含哪些块Block保存在哪个DataNode(由DataNode启动时上报)NameNode的metada

7、te信息在启动后会加载到内存metadata存储到磁盘文件名为”fsimage”Block的位置信息不会保存到fsimageNameNode块存储结构metadate物理存储结构DataNode(DN)保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系(3秒一次),如果NN10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DNBlock的副本放置策略第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点第二个副本:放置在于第一个副本不同的机架的

8、节点上第三个副本:与第二个副本相同集群的节点更多副本:随机节点再说Block设置

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。