淘宝网图片存储系统架构.pdf

淘宝网图片存储系统架构.pdf

ID:52324158

大小:426.10 KB

页数:13页

时间:2020-03-26

淘宝网图片存储系统架构.pdf_第1页
淘宝网图片存储系统架构.pdf_第2页
淘宝网图片存储系统架构.pdf_第3页
淘宝网图片存储系统架构.pdf_第4页
淘宝网图片存储系统架构.pdf_第5页
资源描述:

《淘宝网图片存储系统架构.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本文侧重介绍淘宝网后台的图片存储系统架构、包括TFS集群文件系统,以及前端处理服务器架构。解决海量并发小文件的系统噩梦对于淘宝网这类型访问量极高的电子交易网站来说,对图片系统的要求和日常的照片分享完全不在一个级别。日常照片分享往往集中在几个有限的亲朋好友之间,访问量不会特别高,而淘宝网商铺中的商品照片,尤其是热门商品,图片的访问流量其实是非常大的。而且对于卖家来说,图片远胜于文字描述,因此卖家也格外看重图片的显示质量、上传时间、访问速度等等问题。根据淘宝网的流量分析,整个淘宝网流量中,图片的访问流量会占到90%以上,而

2、主站的网页则占到不到10%。淘宝网电子商城首页截图,淘宝网的后端系统上保存着286亿多个图片文件,淘宝网整体流量中,图片的访问流量要占到90%以上。且这些图片平均大小为17.45KB,小于8K的图片占整体图片数量61%,整体系统容量的11%与此同时,这些图片的存储与读取还有一些头疼的要求:例如,这些图片要求根据不同的应用位置,生成不同大小规格的缩略图。考虑到多种不同的应用场景以及改版的可能性,一张原图有可能需要生成20多个不同尺寸规格的缩略图。淘宝整体图片存储系统容量1800TB(1.8PB),已经占用空间990TB(

3、约1PB)。保存的图片文件数量达到286亿多个,这些图片文件包括根据原图生成的缩略图。平均图片大小是17.45K;8K以下图片占图片数总量的61%,占存储容量的11%。这就给淘宝网的系统带来了一个巨大的挑战,众所周知,对于大多数系统来说,最头疼的就是大规模的小文件存储与读取,因为磁头需要频繁的寻道和换道,因此在读取上容易带来较长的延时。在大量高并发访问量的情况下,简直就是系统的噩梦。分析自主研发和商用系统的经济效益淘宝网成立于2003年,在整个系统的构建和规划上也做过相当多的尝试和探索。下图是淘宝网2007年之前的图片

4、存储系统。淘宝网之前一直采用的商用存储系统,应用NetApp公司的文件存储系统。随着淘宝网的图片文件数量以每年2倍(即原来3倍)的速度增长,淘宝网后端NetApp公司的存储系统也从低端到高端不断迁移,直至2006年,即时是NetApp公司最高端的产品也不能满足淘宝网存储的要求。淘宝网2007年以前的图片存储系统架构图,由于淘宝网图片速度已每年2倍的速度增长,商用系统已经完全不能满足其存储需求,目前淘宝网采用自主研发的TFS集群文件系统来解决海量小图片的读取和访问问题。章文嵩博士在这里总结了几点商用存储系统的局限和不足:

5、首先是商用的存储系统没有对小文件存储和读取的环境进行有针对性的优化;其次,文件数量大,网络存储设备无法支撑;另外,整个系统所连接的服务器也越来越多,网络连接数已经到达了网络存储设备的极限。此外,商用存储系统扩容成本高,10T的存储容量需要几百万¥,而且存在单点故障,容灾和安全性无法得到很好的保证。谈到在商用系统和自主研发之间的经济效益对比,章文嵩博士列举了以下几点经验:1.商用软件很难满足大规模系统的应用需求,无论存储还是CDN还是负载均衡,因为在厂商实验室端,很难实现如此大的数据规模测试。2.研发过程中,将开源和自主

6、开发相结合,会有更好的可控性,系统出问题了,完全可以从底层解决问题,系统扩展性也更高。自主研发和采用商用系统的经济效益对比3.在一定规模效应基础上,研发的投入都是值得的。上图是一个自主研发和购买商用系统的投入产出比对比,实际上,在上图的交叉点左边,购买商用系统都是更加实际和经济性更好的选择,只有在规模超过交叉点的情况下,自主研发才能收到较好的经济效果,实际上,规模化达到如此程度的公司其实并不多,不过淘宝网已经远远超过了交叉点。4.自主研发的系统可在软件和硬件多个层次不断的优化。TFS1.0版本的集群文件系统从2006年

7、开始,淘宝网决定自己开发一套针对海量小文件存储难题的文件系统,用于解决自身图片存储的难题。到2007年6月,TFS(淘宝文件系统,TaobaoFileSystem)正式上线运营。在生产环境中应用的集群规模达到了200台PCServer(146G*6SAS15KRaid5),文件数量达到上亿级别;系统部署存储容量:140TB;实际使用存储容量:50TB;单台支持随机IOPS200+,流量3MBps。淘宝集群文件系统TFS1.0第一版的逻辑架构,TFS最大的特点就是将一部分元数据隐藏到图片的保存文件名上,大大简化了元数据,

8、消除了管理节点对整体系统性能的制约,这一理念和目前业界流行的“对象存储”较为类似。图为淘宝集群文件系统TFS1.0第一版的逻辑架构:集群由一对NameServer和多台DataServer构成,NameServer的两台服务器互为双机,就是集群文件系统中管理节点的概念。•每个DataServer运行在一台普通的Linux主机上•以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。