2024年5月7日发(作者:)

本文侧重介绍淘宝网后台的图片存储系统架构、包括TFS

集群文件系统,以及前端处理服务器架构。

解决海量并发小文件的系统噩梦

对于淘宝网这类型访问量极高的电子交易网站来说,

对图片系统的要求和日常的照片分享完全不在一个级别。

日常照片分享往往集中在几个有限的亲朋好友之间,访问

量不会特别高,而淘宝网商铺中的商品照片,尤其是热门

商品,图片的访问流量其实是非常大的。而且对于卖家来

说,图片远胜于文字描述,因此卖家也格外看重图片的显

示质量、上传时间、访问速度等等问题。根据淘宝网的流

量分析,整个淘宝网流量中,图片的访问流量会占到90%

以上,而主站的网页则占到不到10%。

淘宝网电子商城首页截图,淘宝网的后端系统上保存着286亿多个图片文件,淘宝网整体流量中,图片的

访问流量要占到90%以上。且这些图片平均大小为17.45KB,小于8K的图片占整体图片数量61%,整体

系统容量的11%

与此同时,这些图片的存储与读取还有一些头疼的要

求:例如,这些图片要求根据不同的应用位置,生成不同

大小规格的缩略图。考虑到多种不同的应用场景以及改版

的可能性,一张原图有可能需要生成20多个不同尺寸规格

的缩略图。

淘宝整体图片存储系统容量1800TB(1.8PB),已经

占用空间990TB(约1PB)。保存的图片文件数量达到286

亿多个,这些图片文件包括根据原图生成的缩略图。平均

图片大小是17.45K;8K以下图片占图片数总量的61%,

占存储容量的11%。

这就给淘宝网的系统带来了一个巨大的挑战,众所周

知,对于大多数系统来说,最头疼的就是大规模的小文件

存储与读取,因为磁头需要频繁的寻道和换道,因此在读

取上容易带来较长的延时。在大量高并发访问量的情况下,

简直就是系统的噩梦。

分析自主研发和商用系统的经济效益

淘宝网成立于2003年,在整个系统的构建和规划上