2024年6月9日发(作者:)
CN 43—1 258/TP
计算机工程与科学
第35卷第11期2013年11月
ISSN 1007—13OX
Computer Engineering&Science
Vo1.35,No.11,NOV.2013
文章编号:1007—130X(2013)11-Ol19—07
面向多任务的GPU通用计算虚拟化技术研究
张云洲,袁家斌,吕相文
(南京航空航天大学计算机科学与技术学院,江苏南京210016)
摘要:随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU在通用计算领域的应用越来越
广泛,使用GPU集群来进行海量数据计算的例子不胜枚举。但是,相对于CPU,GPU的功耗较大,如果
每个节点都配备GPu,则将大大增加集群的功耗。虚拟化技术的引入使得在虚拟机中利用GPU资源进
行通用计算成为可能。为高效、充分地利用GPU,针对GPU的特点,提出了一种面向多任务的可动态调
度、支持多用户并发的GPU虚拟化解决方案。在已有的GPU虚拟化方案的基础上,综合考虑虚拟机域
间通信的通用性以及任务的周转时间,建立了CUDA管理端来对GPU资源进行统一管理。通过设置综
合负载评价值实现负载均衡并降低任务的平均周转时间。在设计的系统上进行大规模矩阵运算实验,结
果说明了GPU虚拟化方案在计算系统中的可行性和高效性。
关键词:GPU通用计算;虚拟化;CUDA;负载均衡
中图分类号:TP38;TP303 文献标志码:A
doi:10.3969/i.issn.1007—13OX.2013.11.019
Researcn 0t virtUalizatl0n of multitasK 0rientecI’一 ■f● ‘ ・ -‘ J● ■● 0… ■ 0 ・ ■
general purpose computation on graphic processing unit
ZHANG Yun—zhou,YUAN Jia—bin,LU Xiang—wen
(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
Abstract:With the enrichment of hardware functions and the gradual maturity of software develop—
ment environment。GPU is widely used in the field of general purpose computing,and GPU clusters are
more and more used for scientific computing on huge amounts of data.However,GPU consumes more
power than CPU,SO the GPU clusters have large power consumption if every cluster node hosts a GPU.
Virtualization technology makes it possible that GPU is used for general purpose computing in a virtual
machine.For the sake of using GPU efficiently,according to the features of GPU,a multitask oriented
GPU virtualization solution is proposed,which can support dynamic scheduling and multi—user concur—
rency.Based on the existed solutions of GPU virtualization,we establish CUDA manage end to manage
the GPU resources by taking into account the virtual machine communication between domain generality
and task’S turnaround time.In order to achieve 1oad balance and shorten the turnaround time,we set a
value of integrated load evaluation.Through designing large scale matrix operations,we verify the feasi—
bility and efficiency of GPU virtualization applied in the designed system.
Key words:general purpose computing on GPU;virtualization;CUDA;load balance
收稿日期:2013-08—02;修回日期:2013—10—08
基金项目:国家863计划资助项目(2009AA044601);国家自然科学基金重点项目(61139002);江苏高校优势学科建设工程资助项
目;南京航空航天大学基本科研业务费专项科研项目(NP2013308)
通讯地址:210016江苏省南京市南京航空航天大学计算机科学与技术学院
Address:College of Computer Science and Technology,Naniing University of Aeronautics and Astronautics,Naniing 210016,Jiangsu,
P.R.China .
l20 Computer Engineering&Science计算机工程与科学2013,35(11)
1 引言
半导体工艺的发展使得处理器芯片上集成的
晶体管越来越多,图形处理器GPU(Graphics Pro—
cessing Unit)的性能也因此得到了飞速的提升。
2 相关工作
2.1 基于设备仿真的GPU虚拟化
设备仿真(Device Emulation)通过模拟完整的
硬件环境为系统提供一个伪设备,通过设备仿真的
方法实现GPU虚拟化,为使用GPU的系统提供
随着GPU应用领域的拓展,其功耗问题引起了人
们越来越多的关注。虽然GPU性能功耗比相对
较高,但远高于CPU的绝对功耗成其参与通用计
个仿真的GPU。针对GPU在通用计算方面的
仿真,较有影响的两个方案为Barra_3 、GPGPU—
一
算特别是大规模科学计算不可忽略的问题。高功
耗不仅使得计算的成本增加,也会导致芯片的可靠
性下降,这是科学计算不能容忍的。
在各大公司IT开销不断提高的形势下,虚拟
化因其具有能够节约成本的优势而受重视。虚拟
化技术 的引入带来了如下几个方面的好处:更细
粒度的资源共享、安全隔离、高可靠性等。通过以
虚拟机VM(Virtual Machine)为粒度的分时复用
技术,虚拟化平台可以有效地进行服务器整合,以
提升资源利用率,并最终提高云计算基础设施的整
体资源利用率。但是,在GPU通用计算和虚拟化
这两个研究领域的结合处,面向GPU通用计算的
虚拟化技术及其相关应用还处于起步阶段,GPU
通用计算虚拟化技术的研究与应用对于基于CPU
+GPU异构平台的超级计算机、云计算和网格计
算具有重大的理论意义和现实意义。
针对以上问题,本文借鉴已有的虚拟化技术,
将GPU引入虚拟机,使得虚拟机可以使用GPU
强大的并行能力加速自身计算任务。在GPU虚
拟化技术中引入负载均衡技术,以提高GPU资源
利用率,同时设计一个异构的科学计算系统模拟
GPU虚拟化的应用场景,并通过实验验证GPU虚
拟化的可行性和高效性。
本文的主要创新点如下:(1)基于gVirtuS
(GPU Virtual Service)[23引入计算统一设备架构
CUDA(Compute Unified Device Architecture)管
理端,提出了一种可动态调度、支持多用户并发的
虚拟化方案。(2)通过引入综合负载评价值,将负
载与GPU的计算能力以及任务类型和规模相结
合,提高了GPU资源的利用率,缩短了任务的周
转时间。
本文第2节简要介绍与本文相关的研究工作,
并分析它们与我们研究工作的异同;第3节详细地
介绍了系统的整体框架;第4节介绍GPU虚拟化
方案的关键技术;第5节给出实验平台配置和实验
结果对比分析;最后,对全文进行总结。
Siml4]
。
Barra是首个针对G80体系架构
(NVIDIA首个统一渲染架构)的GPU功能模拟
器,在2009年由Collange S等人发布。Barra是基
于UNISIM框架的模拟器,针对CUDA程序开发
过程中的模拟执行而设计的。
在设备仿真方式中,实际仿真的设备状态位于
内存或CPU中,虚拟机监视器VMM ](Virtual
Machine Monitor)可以直接管理这一部分,使得设
备仿真方式下的GPU虚拟化方案可以天然地继
承VMM所有的高级特性。但是,目前的GPU种
类繁多,并且内部结构复杂,一般包含上百亿个电
气单元,运算速度远远超过传统CPU,通过CPU
来仿真GPU,从功能上是可行的,但是从效率上相
差巨大,不具备作为VMM虚拟设备的条件和实
用价值。
2.2基于设备独占的GPU虚拟化
设备独占即PCI pass—through是指允许客户
操作系统直接控制物理设备,可以通过PCI pass—
through给客户操作系统分配物理设备,如NIC、
USB controller、声卡等,让客户操作系统能够完全
地、直接地控制物理设备。但是,GPU不是简单的
PCI设备,它需要支持许多遗留下来的x86功能,
如传统的IO端口。Xen 4.0.0增加了VGA pass—
through[6 技术,为虚拟机以设备独占方式使用
GPU提供了支持,满足了以上的技术细节,但只能
被单一虚拟机独占,失去了虚拟化的本质特点,在
实际中应用很少。
由于独占使用方案实际上是由客户操作系统
中使用原生驱动和硬件,绕过VMM直接交互,缺
少VMM跟踪和硬件维护设备状态,此方式下的
方案不支持实时迁移、快照等高级特性。Xen和
VMware在其产品中明确指出,一旦开启了VGA
pass—through或VMDirectPath I/O,其对应的虚
拟机将失去挂起/恢复、实时迁移的功能。
2.3基于远程API的GPU虚拟化
API虚拟化即应用程序接口重定向,通过拦截
张云洲等:面向多任务的GPU通用计算虚拟化技术研究
与GPU相关的API,使用重定向或者模拟的方
式,利用拥有相应硬件的服务器或者模拟的硬件完
成相应功能,再将相应的执行结果返回给应用程
序。2007年,NVIDIA推出了第一个GPU通用计
算专用框架——CUDA,随后涌现了一批探讨CU—
DA在虚拟机内应用的方案,如vCUDA(virtual
CUDA) 、GVim(GPU—accelerated Virtual ma—
chines)E引、rCUDA(remote CUDA)[ 、gVirtuS_l0]
等。vCUDA通过在用户层拦截和重定向CUDA
调用,同时在虚拟机中建立GPU的逻辑映像——
vGPU(virtual GPU),使得开发难度大大降低,但
是造成了很大的性能损失。GVim中的解决方案
依赖于特定的Xen虚拟化平台,建立了与Xen命
名规则相匹配的前后端,共有四个模块:前端、后
端、拦截库、库封装器。rCUDA是一个远程执行
CUDA的框架,服务器与客户端之间的通信直接
采用socket方式而不是RPC方式,在效率上相对
vCUDA有所提升。gVirtuS综合vCUDA和
GVim两者的优点,并在其基础上独立地实现了
GPU虚拟化的架构,保证了平台无关性,适用于
Xan、VMware、KVM等主流的虚拟化平台,同时
改善了数据通道的性能。
基于远程API的虚拟化解决方案把研究重点
要么放在对域间通信和数据传输的优化上,要么依
赖于特定的虚拟化平台,并没有针对GPU自身的
结构特点设计出适合在GPU虚拟化环境下的内
部任务的调度算法。本文基于提高GPU资源的
利用率和降低任务的周转时间的出发点,在gVir—
tuN的基础上引入CUDA管理端,管理端采用集
中、灵活的机制对GPU资源进行统一管理,对
GPU内部任务统一调度,GPU内部任务调度通过
对多类型多任务计算时间的反馈信息来设置综合
负载评价值,以实现负载均衡。
3 系统架构
在gVirtuS的基础上,本文虚拟化框架采用经
典的c/s模式,引入CUDA管理端,系统框架共
包含三个模块:CUDA客户端、CUDA服务端和
CUDA管理端。以Xen平台为例,本文虚拟化方
案的整体框架如图1所示。
3.1 CUDA客户端
客户端组件位于客户操作系统(Guest OS)应
用层,主要的功能是在用户层提供针对CUDA
API的伪库(Fake Library)和一个维护CUDA相
121
应
用
层
系
统
理
VMM,特权域 非特权域
Figure 1 Framework of GPU virtualization
图1 GPU虚拟化框架
关软硬件状态的虚拟GPU(vGPU)。CUDA客户
端直接面向CUDA应用程序,其作用包括:(1)拦
截应用程序中CUDA API调用;(2)选择通信策
略,为虚拟化提供更高层语义的支持;(3)对调用的
接口和参数进行封装、编码;(4)对服务端返回的数
据进行解码,并返回给应用。此外,CUDA客户端
在第一个API调用到来之前,首先到管理端索取
GPU资源。每一个独立的调用过程都必须到管理
端申请资源,以实现对GPU资源和任务的实时调
度。
3.2 CUDA服务端
服务端组件位于特权虚拟机(Xen中的特权
域)中的应用层。CUDA服务端面向真实GPU,
其作用包括:(1)接收客户端的数据报,并解析出调
用和参数;(2)对调用和参数进行审核;(3)利用
CUDA和物理GPU计算审核通过的调用;(4)将
结果编码,并返回给客户端;(5)对计算系统中支持
CUDA的GPU进行管理。此外,CUDA服务端运
行的第一个任务是将自身支持CUDA的GPU设
备的信息注册到CUDA管理端中。
CUDA服务端采用虚拟机ID和进程ID进行
识别,相应的CUDA客户端编码是在数据报之前
加上相应的识别信息。服务端收到数据报,解码后
审核相应的识别信息,审核通过后启动对应的工作
线程。工作线程由CUDA服务端创建,其生存周
期对应于CUDA应用的调用周期,自第一个调用
开始,终于最后一个调用。工作线程按FIFO的原
则处理CUDA应用,从数据报中获取API和参
数,然后调用本地GPU资源处理。
3.3 cuDA管理端
管理端组件可位于任何位置,在实现CUDA
122 Computer Engineering 8L Science计算机工程与科学2013,35(11)
编程接口虚拟化的基础上,将GPU强大的计算能
力和计算资源在更高的逻辑层次上进行隔离、划
分、调度。在CUDA服务端使用计算线程和工作
线程在一定程度上使同在一个物理机上的GPU
GPU的时钟频率,G表示GPU的全局内存。a为
GPU处理能力的影响因子,口为全局内存的影响
因子,a、 为0~1的常数,且a+ 一1。 、 的设
置取决于负载的属性,如负载对处理能力要求高,
则提高a的值,如负载对全局内存需求较高,则适
当提高 的值,当任务规模小于全局内存时, 则
设为0。CUDA管理端调度流程如图2所示。
间负载均衡,设置CUDA管理端组件在更高的逻
辑层次上进行负载均衡,使在同一个GPU虚拟集
群中的GPU负载均衡。管理端组件调度的原则
是尽量使在同一个物理机上的GPU需求自给,如
果该物理机上具备满足条件的GPU资源,在一般
情况下,该物理机上的虚拟机的GPU需求都重定
向到该物理机的CUDA服务端。管理端组件采取
的调度算法将在关键技术处详述。
CUDA管理端对GPU资源进行统一管理,采
用集中、灵活的机制,实现:(1)动态调度:当用户所
占资源空闲时间超过一定阈值或者任务结束时,管
理端回收该资源,当该用户再次发布计算任务时,
重新为其任务分配GPU资源;(2)负载平衡:当局
部计算压力过大时,调整计算负载,通过动态调度
时选择合适的GPU资源来分散计算负载;(3)故
障恢复:当出现故障时,将任务转移到新的可用
GPU资源上。
4 面向多任务的GPU虚拟化方案
4.1 GPU内部任务调度
基于GPU特征的任务调度由3.3节中CU—
DA管理端完成,调度流程如图2所示。GPU运
算的速度并非取决于block数量或者thread数量,
而是与SM数量密切相关,并且运算效率与GPU
本身的内核数和时钟频率乘积大概成正比…]。
GPU全局内存的大小对计算效率的影响也非常
大,如果计算规模大于GPU全局内存规模,计算
不能在GPU上一次完成,会引入额外的通信开
销,故注册信息中主要包含处理核心的数量、时钟
频率以及全局内存。管理端将注册信息中的GPU
特征因素纳入负载评价考量范围,并以此调度任
务。
本文为服务端GPU设置一个综合负载评价
值J:
∑Scale *cmplx
一
其中,M为当前GPU上的任务总数,Scale 为
GPU上第i个任务的规模大小,cmplx 为第i个
任务的计算复杂度,P表示GPU的核数,R表示
Figure 2 Scheduling process of CUDA manage-end
图2 CUDA管理端调度流程
在GPU综合负载评价值的主要参数里,任务
规模Scale 由CUDA应用程序提供在接口参数
中。在CUDA管理端中维护一张任务信息表,不
同任务类型对应于不同的复杂度以及相应的a、口
值,cmplx 由CUDA客户端提供的任务类型所决
定。如单精度浮点加、乘、乘加的任务类型都定义
为1,其对应的复杂度为1;求倒的任务类型为2,
复杂度为4;除法的任务类型为3,复杂度为9.09
等ll 。P、R、G等均由CUDA服务端的注册信息
所提供,并由cUDA管理端维护。
CUDA管理端针对GPU任务的调度原则是
优先本地处理,这是由GPU虚拟化方案的通信机
制所决定的,这样可大大降低由于数据传输所带来
的性能开销。CUDA服务端向CUDA管理端注
册时,通过注册关键信息按照综合负载评价值的公
式计算出综合负载评价值。CUDA客户端向CU—
DA管理端请求服务时,首先更新本地服务端的综
合负载评价值,然后将本地服务端的负载评价值乘
以一个权值系数,并加入表项中排序,得出最小的
项即负载最低的,并将其分配给CUDA客户端。
权值系数的大小可以控制对本地服务端的优先级,
张云洲等:面向多任务的GPU通用计算虚拟化技术研究
权值系数设置得越小,本地服务端提供服务的可能
性越大。权值系数可以看作是本地服务端的优先
级和自身负载的一个比值。
4.2通信策略
面向多任务的GPU虚拟化方案中设计的通
信策略的主要优化工作在于虚拟机域间通信,在
跨VMM的通信方面目前还不存在任何优化的
软件方案,只能依靠例如InfiniBand 这类特殊
硬件的解决方案。目前主流的虚拟化平台上并
不存在通用的高效通信方式,为了使得虚拟化框
架通用,本文在不同的虚拟化平台中设计或应用
不同的特殊通信机制。本文在Xen平台下使用
了XenLoop加速域间通信,VMware平台下使用
了VMCI[1 方式。在远程条件下采用通用的套
接字进行通信。
5 实现分析
5.1实验环境
本文选取科学计算中较为常见的典型应用进
行分析,从矩阵乘法方面对系统的性能进行测试,
并对结果进行分析。系统的体系结构由视图服务
器、配置服务器、调度服务器、计算资源服务器组
成。系统基于的软、硬件环境如表1所示。其中计
算节点使用虚拟机,宿主物理机为两台服务器,一
台配置为Intel Xeon E7-4830、Tesla C2o5o*4、
48GB内存,另一台为Intel Core i5-2300、Tesla
C2050*2、16 GB内存。对于GPU虚拟化组件中
的特权域,目前并不存在适用于Xen下DOMAIN
0中的显卡驱动,本文通过在Xen中非特权虚拟机
中使用PCI pass—through技术,使得该非特权域获
得物理GPU的访问权,并在此非特权域部署CU-
DA服务端组件,使其充当特权域的角色。实验中
使用的矩阵乘法实现为NVIDIA—GPU—COM—
PUTING
—
SDK 3.2.16中简单矩阵乘法。
Table 1 COnfiguratiOn of system environment
表1 系统环境配置
节点名称 数量 硬件环境描述 篷描述
视图服务器 1
Intel Core i5、4GB内存
配置服务器 1
Intel Core i5、4GB内存
调度服务器 1
Intel Core i5、4GB内存
资源服5(初始态) vCPU*2、1GB内存
Centos5.7
CUDA 3.2.16
务器 一 …
Tesla C2050(虚拟化)
Xell 4.0.1
123
5.2影响因子的获得
本文中 、口的取值根据给定任务的周转时间
的反馈来设定加上或减去0.02的步长,当周转时
间达到最短时,对应a、 的值就为相应的任务类
型的值。系统对每个a、 定义数据结构struct
get
alpha
and
—
beta{float a;float ;float cycling
—
time;),对每个a和 的可能取值都进行验证,并
将结果按state- ̄cycling—time升序排序,返回
state- ̄cycling
time最小值所对应的d和 ,相同
大小则返回平均值。本文以矩阵乘法为例,通过设
定不同的a和 值,将任务发送到不同的计算资源
服务器,最后通过对周转时间的反馈来评价a和口
的最优组合并写入注册信息表。
5.3实验结果及对比分析
为了保证客户端不成为影响实验结果的瓶颈,
实验还配置了多台负载发生器。为了得到较为精
确的a和口,本文通过客户端随机生成一定数量的
任务提交至CUDA管理端,并由管理端平均分发
到GPU中。如图3是当前用户第一次提交矩阵
相乘的任务至不同GPU时得到的反馈时间(a和
口的取值决定负载评价值 ,进而指定GPU完成任
务),并由此确定a和 的取值。结果表明,当a的
取值在0.71~O.83时,任务的周转时间最短,则此
时设置a一0.77,I9—0.23,并写入任务信息表。
假设A、B、C均为N*N规模的矩阵,且C—A*
N
B,则c中元素的计算公式为c ,一 A B目。由
=l
此可见,矩阵乘法总计算量的数量级是0(』\,。),访
问存储量的数量级为O(N。),计算访存比为
0(N),是一个典型的计算密集型任务,因此其对
于GPU的处理能力相对较高,故而相对于 ,a的
取值也较大。
■周转时间/ms
Figure 3 Task S turnaround time with different q and 8
图3任务在不同 、卢配置下的周转时间( 一1--a)
针对单个任务利用GPU虚拟化的效率对比,
由图4a可以看出,本地GPU、gVirtuS与本文,在
任务规模变大时,本文的效率慢慢接近于本地
124 Computer Engineering&Science计算机工程与科学201 3,35(11)
GPU和gVirtuS。相比本地GPU的方式,本文增 有力地说明了本文GPU虚拟化方案在多机环境
加了CUDA服务端与cUDA客户端之问的通信
开销,比gVirtuS增加了调度开销,在计算规模变
大时,计算时间同时增加,则开销在总时间的比例
下的优越性。由于本地(native)模式并不能适用
于多机环境下,两台服务器并不能在同一时间同时
使用,图中得出的数据为两台服务器native模式
下的平均值。
越来越少,可忽略不计。同时,本文的方式支持多
用户并发、负载均衡,在多GPU和多任务的情况
下明显优于另外两种方式。由图4b可知,在给定
6 结束语
时间内,本文完成任务数明显大于另外两种方式。
阶数
a
单任务下时间效率比较
任务提交数
h多任务下完成数比较
Figure 4 Time comparison of single task and number
comparison of multi—task finished within certain time
图4单任务下任务时间效率比较和多任务完成数比较
图5为在某一台服务器上一定时间(时间根据
任务数确定)内随机产生固定任务数的情况。
U 100 2LHJ 300 400
任务数
Figure 5 Number comparison of
multi task finished within certain time
图5多任务下应用系统任务完成数比较,
x轴为提交的任务数,y轴为完成的任务数
图5中显示的是最差情况下和最优情况下本
地环境与本文虚拟化方案的任务完成情况的曲线。
从图5中可以看出,本文虚拟化方案能够维护工作
线程,防止了本地环境中因GPU资源忙而导致的
任务直接终止。随机情况更类似实际应用环境,更
本文在gVirtuS的基础上,结合分布式系统思
想和可扩展性设计的原则,设计了一个面向多任务
的GPU通用计算虚拟化解决方案,通过在大规模
科学计算的系统来模拟GPU虚拟化技术的应用
场景。以目前最成熟、应用最广泛的CUDA框架
为研究对象,实现了CUDA在虚拟化平台下的透
明运行方案,使得以CUDA为基础的GPU通用计
算成功地在虚拟机中运行,通过实验说明了解决方
案的有效性和高效性。此外,仍存在一些问题有待
进一步改进。例如,GPU虚拟化中的容错机制不
够完善,在单任务的情况下,GPU虚拟化的效率和
本地GPU之间仍有差距。相关的改进与测试将
在后续工作中展开,并对容错机制进一步深入研
究,最终使GPU虚拟化技术的可靠性更高,应用
系统更完善,能够以SaaS1]朝(Software as a Serv
ice)的模式提供服务的效果。
参考文献:
[1]The group of virtualization and cloud computing.Virtualiza—
tion and computing[M].Beijing:Electronic Industry Press,
2009.(in Chinese)
[2]Giunta G,Montella R,Agrillo G,et a1.A GPGPU trans—
parent virtualization component for high performance compu—
irng clouds[c]∥Proc of the 1 6th International Euro—Par
Conference,2O10:379-391.
[3]Collange S,Defour D,Parello D.Barra,a modular functional
GPU simulator for GPGPU[R].Technical Report hal一
00359342,2009.
[4] Bakhoda A,Yuan G,Fung W,et a1.Analyzing CUDA work—
loads using a detailed GPU simulator[C]ff Proc of ISPASS
09,2009:163—1 74.
[5]Lahabar S,Agrawal P,Narayanan P J.High performance pat—
tern recognition on GPU[c]∥Proc of National Conference
on Computer Vision Pattern Recognition Image Processing
and Graphics,2008:1 54—159.
[6]Xen VGA passthrough[EB/OI ].[2012 12-06].wiki.Xen
source.com/Xenwiki/XenVGAPassthrough.
[7]Shi I ,Chen H,Sun J.vCUDA:GPU accelerated high per一
{ormance computing in virtual machines[C]?f Proc of Inter
national Parallel&Distributed Processing Symposium,2009:
张云洲等:面向多任务的GPU通用计算虚拟化技术研究
l一11.
E8]
Gupta V,Gavrilovska A,Schwan K,et a1.Gvim:Gpu—ac—
celerated virtual machines[C]ff Proc of ACM Workshop on
System——level Virtualization for High Performance Compu—-
ting,2009:17-24.
[9]
Duato J,Pena A,Silla F,et a1.rCUDA:Reducing the hum—
ber of GPU—based accelerators in high performance clusters
[C]//Proc of International Conference on High Performance
Computing and Simulation。2010:224—231.
[1O]
Giunta G,Montella R,Agrillo G,et a1.A GPGPU trans
parent virtualization component for high performance eom—
puting clouds[C],,Proc of EuroPar Conference on Parallel
Processing,2010:379 391.
[1I]
IA Wen-liang.Key technology research of GPU cluster schedu—
ling management system[D].Wuhan:Huazhong University
of Science and Technology,2011.(in Chinese)
[12]
Zhang Shu.Chu Yan—li.CUDA GPU high performance corn—
puting[M].Beijing:China WaterPower Press,2009.(in
Chinese)
[13]
Hao Shui xia,Zeng Guo sun,Tan Yi ming.Scalability a—
nalysis of heterogeneous computing based on computation
task and architecture to match[J].ACTA Electroniea Sini—
ca,2O10,38(11):2585-2589.(in Chinese)
[14]
VMC1 0verview[EB/0L].[2012—05—18].http://pubs.vm—
ware.com/vmei—sdk/VMCI
i ntro.htm1.
[15]
Wang Zhuo hao,Zhao Zhuo feng,Fang Jun,et a1.A SaaS-
friendly service community model and its application in the
nationwide service network for sharing science and technolo—
gY information[J].Chinese Journal of Computers,2010,33
(】1):2O33—2043.(in Chinese)
附中文参考文献:
[1]虚拟化与云计算小组.虚拟化与云计算[M].北京:电子工业
出版社,2009.
125
[11] 李文亮.GPU集群调度管理系统关键技术的研究[D].武
汉:华中科技大学,2011.
[12]张舒,褚艳利.GPU高性能运算之CUDA[M].北京:中国水
利水电出版社,2009.
[133郝水侠,曾国荪,谭一鸣.计算任务与体系结构匹配的异构
计算可扩展性分析[J].电子学报,2010,38(11):2585—
2589.
[15]王卓吴,赵卓峰,房俊.一种SaaS模式下的服务社区模型及
其在全国科技信息服务网中的应用[J].计算机学报,
2O10,33(11):2033—2043.
作者简介:
张云洲(1989一),男,安徽长丰人,硕
士生,研究方向为高性能计算和虚拟化。
E-mail:zcloudz@nuaa.edu.cn
ZHANG Yun-zhou,born in 1989,MS
candidate,his research interests include
alization.
袁家斌(1968一),男,江苏兴化人,博
士后,教授,研究方向为高性能计算和量子
密码。E-mail:ok@nuaa.edu.cn
YUAN Jia-bin,born in 1968,post doc—
tor,professor,his research interests include
turn cryptography.
吕相文(1985一),男,江苏泰州人,博
士生,研究方向为高性能计算和量子计算
模拟。E-mail:xwlv@nuaa.edu.cn
LU Xiang-wen.born in 1985。PhD can—
didate,his research interests include HPC,
and quantum computing simulation.


发布评论