谷歌三大核心技术编程频道|福州电脑网

2024年5月29日发(作者：)

谷歌三大核心技术（一）Google File System中文版

您的评价:

收藏该经验

不错

The Google File System中文版

译者：alex

摘要

我们设计并实现了Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的

分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的

能力，为大量客户机提供了高性能的服务。

虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处，但是，我们的设计还

是以我们对自己的应用的负载情况和技术环境的分析为基础的，不管现在还是将来，GFS

和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设

计上的折衷选择，衍生出了完全不同的设计思路。

GFS完全满足了我们对存储的需求。GFS作为存储平台已经被广泛的部署在Google内

部，存储我们的服务产生和处理的数据，同时还用于那些需要大规模数据集的研究和开发

工作。目前为止，最大的一个集群利用数千台机器的数千个硬盘，提供了数百TB的存储

空间，同时为数百个客户机服务。

在本论文中，我们展示了能够支持分布式应用的文件系统接口的扩展，讨论我们设计的许

多方面，最后列出了小规模性能测试以及真实生产系统中性能相关数据。

分类和主题描述

D [4]: 3—D分布文件系统

常用术语

设计，可靠性，性能，测量

关键词

容错，可伸缩性，数据存储，集群存储

1. 简介

为了满足Google迅速增长的数据处理需求，我们设计并实现了Google文件系统(Google

File System – GFS)。GFS与传统的分布式文件系统有着很多相同的设计目标，比如，性

能、可伸缩性、可靠性以及可用性。但是，我们的设计还基于我们对我们自己的应用的负

载情况和技术环境的观察的影响，不管现在还是将来，GFS和早期文件系统的假设都有明

显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择，衍生出了完全不同的

设计思路。

首先，组件失效被认为是常态事件，而不是意外事件。GFS包括几百甚至几千台普通的廉

价设备组装的存储机器，同时被相当数量的客户机访问。 GFS组件的数量和质量导致在

事实上，任何给定时间内都有可能发生某些组件无法工作，某些组件无法从它们目前的失

效状态中恢复。我们遇到过各种各样的问题，比如应用程序bug、操作系统的bug、人为

失误，甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以，持续的监

控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。

其次，以通常的标准衡量，我们的文件非常巨大。数GB的文件非常普遍。每个文件通常

都包含许多应用程序对象，比如web文档。当我们经常需要处理快速增长的、并且由数

亿个对象构成的、数以TB的数据集时，采用管理数亿个KB大小的小文件的方式是非常

不明智的，尽管有些文件系统支持这样的管理方式。因此，设计的假设条件和参数，比如

I/O操作和Block的尺寸都需要重新考虑。

第三，绝大部分文件的修改是采用在文件尾部追加数据，而不是覆盖原有数据的方式。对

文件的随机写入操作在实际中几乎不存在。一旦写完之后，对文件的操作就只有读，而且

通常是按顺序读。大量的数据符合这些特性，比如：数据分析程序扫描的超大的数据集；

正在运行的应用程序生成的连续的数据流；存档的数据；由一台机器生成、另外一台机器

处理的中间数据，这些中间数据的处理可能是同时进行的、也可能是后续才处理的。对于

这种针对海量文件的访问模式，客户端对数据块缓存是没有意义的，数据的追加操作是性

能优化和原子性保证的主要考量因素。

第四，应用程序和文件系统API的协同设计提高了整个系统的灵活性。比如，我们放松了

对GFS一致性模型的要求，这样就减轻了文件系统对应用程序的苛刻要求，大大简化了

GFS的设计。我们引入了原子性的记录追加操作，从而保证多个客户端能够同时进行追加

谷歌三大核心技术

发布评论取消回复

最近发表

相关推荐

标签列表

谷歌三大核心技术

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复