2024年5月1日发(作者:)

1、谈谈你所理解的什么是云计算?

云计算就是基于互联网的计算,它能像电网供电一样,按需把共享的资源、软件和信

息提供给计算机和其他设备

云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用

户能够按需获取计算力、存储空间和信息服务

云计算是一个提供便捷的可通过网络访问的一个可定制的计算资源共享池能力的模式

(计算资源包括网络、服务器、存储、应用和服务);这些资源能够快速部署,并只需要很

少的管理工作或与服务提供商很少的交互

云计算就是将信息技术作为服务的一种计算供应和消费方式

用户消费服务

云计算服务提供商提供服务

2、解释云计算的SPI服务模型,公有云,私有云,混合云。

云计算是通过共享资源池的方式来提高资源利用率的,根据资源池中资源的类别,将

云计算服务模型分为:

基础设施即服务(Infrastructure as a Service,IaaS)

平台即服务(Platform as a Service,Paas)

软件即服务(Software as a Service,Saas)

根据云计算服务的用户对象范围的不同,将云计算部署模式分为:公有云、私有云、

混合云

公共云适用于Internet上的任何人

任何用户均可签名以使用公共云(如Microsoft Windows Azure)

用户无须前提的大量投资与漫长建设过程

由于应用和数据不存储在用户自己的数据中心,因此用户对其安全、隐私等问题存在

一定的担心,尤其是对于大型企业和政府部门

公有云的可用性不受使用者控制,存在一定的不确定性

相关技术与法规的完善

用户观念与意识的转变

“将前期的资本投资转变为运营费用”

私有云(私有云)是一种专有云环境,仅为数量有限的用户提供云服务

私有云通常位于防火墙后面您自己的数据中心内,为企业内部网络提供服务,优势是

数据安全性、系统可用性等可由自己控制

大量前期投资(数据中心)

规模小

机构应用云计算相关技术来提高自身信息服务效率的一种方式

混合云

既使用公有云服务,也使用私有云服务

3、结合课程内容与网络上的资料,解释各种类型虚拟化技术,比较计算机虚拟化的两

种典型体系架构。

表示层虚拟化

应用程序虚拟化:基于服务器计算,是指将应用程序的大部分处理工作放在服务器中

运行,而只是将屏幕画面通过压缩算法传送给客户端用来显示结果。

计算机虚拟化(桌面虚拟化和服务器虚拟化)

网络虚拟化:网络虚拟化的内容一般指虚拟专用网络 (VPN)。VPN 对网络连接的概

念进行了抽象,允许远程用户访问组织的内部网络,就像物理上连接到该网络一样。网络

虚拟化可以帮助保护 IT 环境,防止来自 Internet 的威胁,同时使用户能够快速安全的访

问应用程序和数据。

展现层虚拟化:在本地计算机显示和操作远程计算机桌面,在另一台计算机上执行程

序和储存信息。一般通过终端服务实现

应用程序虚拟化:在操作系统和应用程序间建立虚拟环境,无须安装到操作系统即可

运行应用程序

桌面虚拟化:是指将计算机的桌面进行虚拟化,以达到桌面使用的安全性和灵活性。

可以通过任何设备,在任何地点,任何时间访问在网络上的属于我们个人的桌面系统。

存储虚拟化:虚拟存储技术将底层存储设备进行抽象化统一管理,向服务器层屏蔽存

储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现了存储系统集中、统一而又

方便的管理。

服务器虚拟化:将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百

台相互隔离的虚拟服务器,我们不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O

等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服

务器整合,让IT对业务的变化更具适应力--------这就是服务器的虚拟化。

论述VMWare虚拟化解决方案。

VMware HA是什么?

VMware HA就是发生服务器故障是在其他的物理服务器上自动重启虚拟机

客户优势

对所有的应用实现了高可用性,并且成本很低

不需要完全一致的重复硬件

比传统的集群有更高的成本优势,同时易于使用和操作

VMotion是什么?

通过VMware VMotion可以实现虚拟机的动态迁移, 而服务不中断

客户优势

零宕机时间: 进行有计划的服务器维护和升级迁移工作负载,资源利用率最大化

服务器的持续可用性, 完整的交易集成

支持Fibre Channel和iSCSI SAN环境以及NAS

接上面的

无中断:

刷新到新阵列

迁移到不同类别的存储器

升级到新文件系统格式

虚拟机粒度,LUN 独立

DRS是什么?

跨资源池动态平衡计算资源

基于预先设定的规则智能分配资源

对客户的优势

基于业务优先级分配IT资源

简化运行,大幅度提高系统管理员的生产率

动态添加硬件资源而避免在繁忙时段服务器的过载

动态硬件维护能力

启用“即插即用”数据中心

插入:接通安装了 ESX Server 3/3i 的新服务器电源。新服务器即加入 DRS 群集。

使用:群集中所有的虚拟机会自动重新进行平衡,以纳入新的可用资源。

负载分配规则设定一次,永远有效,自动执行

按需分配容量

易于扩展

避免业务繁忙时段的过载

DPM:分布式电源管理

群集需要的资源越少,就将工作负载整合到越少的服务器上

将不需要的服务器置于待机模式

工作负载需要增加时,再恢复服务器在线状态

保证服务级别的同时减少电力消耗

虚拟机不中断、不停机

应用VMware Consolidated Backup保护数据

集中的、文件级的备份实现了简单、可靠的数据保护

VCB是什么?

集中的、无代理的虚拟机备份

将备份移出虚拟机

减少备份代理和数量

消除生产虚拟机的备份负载

充分利用虚拟机快照功能

支持SAN、iSCSI和NAS

和主流的第三方的备份产品预集成

客户优势

在白天就可以执行备份任务

借助 VMware 云计算基础架构和管理解决方案,您可以实现基础架构转型并为您的

云计算奠定智能化的基础。 这些解决方案针对关键业务工作负载进行了优化,您可以使用

最适合贵组织的成本结构和服务级别运营您的业务。 智能化虚拟基础架构适应能力极强,

可以随着您的业务的壮大而扩展。 最重要的是,其内置的智能机制能够感知和响应不断变

化的需求,可将“先警报后响应”的传统 IT 管理模式转变为“先响应后警报”模式,以

改进 IT 状况和业务敏捷性,为企业提供所需的独特竞争优势。

VMware 云计算基础架构和管理解决方案基于业界领先的虚拟化平台 VMware

vSphere 构建,无论您的工作负载在何处(您数据中心内的私有云中、通过 VMware 实

现的公有云中,或同时在这两者中)运行,都能提供一致的安全性、管理和服务质量。

借助 VMware,企业可以通过智能化的虚拟基础架构在今天拥有未来的数据中心以:

通过消除停机和降低 TCO 来自信地运行关键业务应用

通过内置的智能和自动化功能,提供高质量的服务并降低运营开销

通过使用企业级混合云来不折不扣地提高敏捷性,从而提供灵活的体系结构来实现对

位于任意位置的资源进行按需访问

智能化的虚拟基础架构可帮助您的 IT 组织发展以提高对业务的响应能力。 它使您可

以按适合您组织的步调转变 IT,不会造成中断和风险,同时充分利用对技能和技术的现有

投资并不断扩增这些投资。

5在网络上搜集Hadoop的资料,给出其技术架构与应用流程

Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File Syst

em(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)

的上一层是 MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。HDFS

对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或

重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的(参见图 1),这是

由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元

数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这

是 HDFS 的一个缺点(单点失败)。 存储在 HDFS 中的文件被分成块,然后将这些

块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通

常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文

件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。NameNode

NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件

系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode

上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,

最后一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。 实

际的 I/O 事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据

经过 NameNode。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和

该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要

接收该块的副本的 DataNode。 NameNode 在一个称为 FsImage 的文件中存储所

有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是

EditLog)将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要

复制副本,以防文件损坏或 NameNode 系统丢失。DataNode

DataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop 集群

包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通

过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速

度快于机架间节点的传输速度。 DataNode 响应来自 HDFS 客户机的读写请求。它

们还响应创建、删除和复制来自 NameNode 的块的命令。NameNode 依赖来自每个

DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可

以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,

NameNode 将采取修复措施,重新复制在该节点上丢失的块。文件操作

可见,HDFS 并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入

的大型文件。如果客户机想将文件写到 HDFS 上,首先需要将该文件缓存到本地的临时存

储。如果缓存的数据大于所需的 HDFS 块大小,创建文件的请求将发送给 NameNode。

NameNode 将以 DataNode 标识和目标块响应客户机。同时也通知将要保存文件块副

本的 DataNode。当客户机开始将临时文件发送给第一个 DataNode 时,将立即通过管

道方式将块内容转发给副本 DataNode。客户机也负责创建保存在相同 HDFS 名称空间

中的校验和(checksum)文件。在最后的文件块发送之后,NameNode 将文件创建提

交到它的持久化元数据存储(在 EditLog 和 FsImage 文件)。Linux 集群

Hadoop 框架可在单一的 Linux 平台上使用(开发和调试时),但是使用存放在机架

上的商业服务器才能发挥它的力量。这些机架组成一个 Hadoop 集群。它通过集群拓扑

知识决定如何在整个集群中分配作业和文件。Hadoop 假定节点可能失败,因此采用本机

方法处理单个计算机甚至所有机架的失败。

Ing用程序

Hadoop 的最常见用法之一是 Web 搜索。虽然它不是惟一的软件框架应用程序,但

作为一个并行数据处理引擎,它的表现非常突出。Hadoop 最有趣的方面之一是 Map and

Reduce 流程,它受到 Google开发的启发。这个流程称为创建索引,它将 Web 爬行器

检索到的文本 Web 页面作为输入,并且将这些页面上的单词的频率报告作为结果。然后

可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。

MapReduce

最简单的 MapReduce 应用程序至少包含 3 个部分:一个 Map 函数、一个

Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。在

这点上,Hadoop 提供了大量的接口和抽象类,从而为 Hadoop 应用程序开发人员提供

许多工具,可用于调试和性能度量等。 MapReduce 本身就是用于并行处理大数据集

的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可

能包含有许多实例(许多 Map 和 Reduce)的操作组成。Map 函数接受一组数据并将

其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受

Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。

这里提供一个示例,帮助您理解它。假设输入域是 one small step for man, one giant

leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表: (one, 1)

(small, 1) (step, 1) (for, 1) (man, 1)

MapReduce 流程的概念流

(one, 1) (giant, 1) (leap, 1) (for, 1) (mankind, 1) 如果对这个键/值对列表应用

Reduce 函数,将得到以下一组键/值对: (one, 2) (small, 1) (step, 1) (for, 2) (man, 1)

(giant, 1) (leap, 1) (mankind, 1) 结果是对输入域中的单词进行计数,这无疑对处理索

引十分有用。但是,现在假

显示处理和存储的物理分布的 Hadoop 集群

设有两个输入域,第一个是 one small step for man,第二个是 one giant leap for

mankind。您可以在每个域上执行 Map 函数和 Reduce 函数,然后将这两个键/值对列

表应用到另一个 Reduce 函数,这时得到与前面一样的结果。换句话说,可以在输入域并

行使用相同的操作,得到的结果是一样的,但速度更快。这便是 MapReduce 的威力;

它的并行功能可在任意数量的系统上使用。图 2 以区段和迭代的形式演示这种思想。

现在回到 Hadoop 上,它是如何实现这个功能的?一个代表客户机在单个主系统上启动

的 MapReduce 应用程序称为 JobTracker。类似于 NameNode,它是 Hadoop 集群

中惟一负责控制 MapReduce 应用程序的系统。在应用程序提交之后,将提供包含在

HDFS 中的输入和输出目录。JobTracker 使用文件块信息(物理量和位置)确定如何创

建其他 TaskTracker 从属任务。MapReduce 应用程序被复制到每个出现输入文件块的节

点。将为特定节点上的每个文件块创建一个惟一的从属任务。每个 TaskTracker 将状态和

完成信息报告给 JobTracker。图 3 显示一个示例集群中的工作分布。 Hadoop 的这

个特点非常重要,因为它并没有将存储移动到某个位置以供处理,而是将处理移动到存储。

这通过根据集群中的节点数调节处理,因此支持高效的数据处理。