面向多任务的GPU通用计算虚拟化技术研究

2024年6月9日发(作者：)

ＣＮ　４３—１　２５８／ＴＰ　

计算机工程与科学　

第３５卷第１１期２０１３年１１月　

ＩＳＳＮ　１００７—１３ＯＸ　

Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ＆Ｓｃｉｅｎｃｅ　

Ｖｏ１．３５，Ｎｏ．１１，ＮＯＶ．２０１３　

文章编号：１００７—１３０Ｘ（２０１３）１１－Ｏｌ１９—０７　

面向多任务的ＧＰＵ通用计算虚拟化技术研究　

张云洲，袁家斌，吕相文　

（南京航空航天大学计算机科学与技术学院，江苏南京２１００１６）　

摘要：随着硬件功能的不断丰富和软件开发环境的逐渐成熟，ＧＰＵ在通用计算领域的应用越来越　

广泛，使用ＧＰＵ集群来进行海量数据计算的例子不胜枚举。但是，相对于ＣＰＵ，ＧＰＵ的功耗较大，如果　

每个节点都配备ＧＰｕ，则将大大增加集群的功耗。虚拟化技术的引入使得在虚拟机中利用ＧＰＵ资源进　

行通用计算成为可能。为高效、充分地利用ＧＰＵ，针对ＧＰＵ的特点，提出了一种面向多任务的可动态调　

度、支持多用户并发的ＧＰＵ虚拟化解决方案。在已有的ＧＰＵ虚拟化方案的基础上，综合考虑虚拟机域　

间通信的通用性以及任务的周转时间，建立了ＣＵＤＡ管理端来对ＧＰＵ资源进行统一管理。通过设置综　

合负载评价值实现负载均衡并降低任务的平均周转时间。在设计的系统上进行大规模矩阵运算实验，结　

果说明了ＧＰＵ虚拟化方案在计算系统中的可行性和高效性。　

关键词：ＧＰＵ通用计算；虚拟化；ＣＵＤＡ；负载均衡　

中图分类号：ＴＰ３８；ＴＰ３０３　文献标志码：Ａ　

ｄｏｉ：１０．３９６９／ｉ．ｉｓｓｎ．１００７—１３ＯＸ．２０１３．１１．０１９　

Ｒｅｓｅａｒｃｎ　０ｔ　ｖｉｒｔＵａｌｉｚａｔｌ０ｎ　ｏｆ　ｍｕｌｔｉｔａｓＫ　０ｒｉｅｎｔｅｃＩ’一　■ｆ●　‘　・　－‘　Ｊ●　■●　０…　■　０　・　■　

ｇｅｎｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔａｔｉｏｎ　ｏｎ　ｇｒａｐｈｉｃ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ　

ＺＨＡＮＧ　Ｙｕｎ—ｚｈｏｕ，ＹＵＡＮ　Ｊｉａ—ｂｉｎ，ＬＵ　Ｘｉａｎｇ—ｗｅｎ　

（Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ａｅｒｏｎａｕｔｉｃｓ　ａｎｄ　Ａｓｔｒｏｎａｕｔｉｃｓ，Ｎａｎｊｉｎｇ　２１００１６，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｗｉｔｈ　ｔｈｅ　ｅｎｒｉｃｈｍｅｎｔ　ｏｆ　ｈａｒｄｗａｒｅ　ｆｕｎｃｔｉｏｎｓ　ａｎｄ　ｔｈｅ　ｇｒａｄｕａｌ　ｍａｔｕｒｉｔｙ　ｏｆ　ｓｏｆｔｗａｒｅ　ｄｅｖｅｌｏｐ—　

ｍｅｎｔ　ｅｎｖｉｒｏｎｍｅｎｔ。ＧＰＵ　ｉｓ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｉｎ　ｔｈｅ　ｆｉｅｌｄ　ｏｆ　ｇｅｎｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔｉｎｇ，ａｎｄ　ＧＰＵ　ｃｌｕｓｔｅｒｓ　ａｒｅ　

ｍｏｒｅ　ａｎｄ　ｍｏｒｅ　ｕｓｅｄ　ｆｏｒ　ｓｃｉｅｎｔｉｆｉｃ　ｃｏｍｐｕｔｉｎｇ　ｏｎ　ｈｕｇｅ　ａｍｏｕｎｔｓ　ｏｆ　ｄａｔａ．Ｈｏｗｅｖｅｒ，ＧＰＵ　ｃｏｎｓｕｍｅｓ　ｍｏｒｅ　

ｐｏｗｅｒ　ｔｈａｎ　ＣＰＵ，ＳＯ　ｔｈｅ　ＧＰＵ　ｃｌｕｓｔｅｒｓ　ｈａｖｅ　ｌａｒｇｅ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ｉｆ　ｅｖｅｒｙ　ｃｌｕｓｔｅｒ　ｎｏｄｅ　ｈｏｓｔｓ　ａ　ＧＰＵ．　

Ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｔｅｃｈｎｏｌｏｇｙ　ｍａｋｅｓ　ｉｔ　ｐｏｓｓｉｂｌｅ　ｔｈａｔ　ＧＰＵ　ｉｓ　ｕｓｅｄ　ｆｏｒ　ｇｅｎｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔｉｎｇ　ｉｎ　ａ　ｖｉｒｔｕａｌ　

ｍａｃｈｉｎｅ．Ｆｏｒ　ｔｈｅ　ｓａｋｅ　ｏｆ　ｕｓｉｎｇ　ＧＰＵ　ｅｆｆｉｃｉｅｎｔｌｙ，ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｆｅａｔｕｒｅｓ　ｏｆ　ＧＰＵ，ａ　ｍｕｌｔｉｔａｓｋ　ｏｒｉｅｎｔｅｄ　

ＧＰＵ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｓｏｌｕｔｉｏｎ　ｉｓ　ｐｒｏｐｏｓｅｄ，ｗｈｉｃｈ　ｃａｎ　ｓｕｐｐｏｒｔ　ｄｙｎａｍｉｃ　ｓｃｈｅｄｕｌｉｎｇ　ａｎｄ　ｍｕｌｔｉ—ｕｓｅｒ　ｃｏｎｃｕｒ—　

ｒｅｎｃｙ．Ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｅｘｉｓｔｅｄ　ｓｏｌｕｔｉｏｎｓ　ｏｆ　ＧＰＵ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ，ｗｅ　ｅｓｔａｂｌｉｓｈ　ＣＵＤＡ　ｍａｎａｇｅ　ｅｎｄ　ｔｏ　ｍａｎａｇｅ　

ｔｈｅ　ＧＰＵ　ｒｅｓｏｕｒｃｅｓ　ｂｙ　ｔａｋｉｎｇ　ｉｎｔｏ　ａｃｃｏｕｎｔ　ｔｈｅ　ｖｉｒｔｕａｌ　ｍａｃｈｉｎｅ　ｃｏｍｍｕｎｉｃａｔｉｏｎ　ｂｅｔｗｅｅｎ　ｄｏｍａｉｎ　ｇｅｎｅｒａｌｉｔｙ　

ａｎｄ　ｔａｓｋ’Ｓ　ｔｕｒｎａｒｏｕｎｄ　ｔｉｍｅ．Ｉｎ　ｏｒｄｅｒ　ｔｏ　ａｃｈｉｅｖｅ　１ｏａｄ　ｂａｌａｎｃｅ　ａｎｄ　ｓｈｏｒｔｅｎ　ｔｈｅ　ｔｕｒｎａｒｏｕｎｄ　ｔｉｍｅ，ｗｅ　ｓｅｔ　ａ　

ｖａｌｕｅ　ｏｆ　ｉｎｔｅｇｒａｔｅｄ　ｌｏａｄ　ｅｖａｌｕａｔｉｏｎ．Ｔｈｒｏｕｇｈ　ｄｅｓｉｇｎｉｎｇ　ｌａｒｇｅ　ｓｃａｌｅ　ｍａｔｒｉｘ　ｏｐｅｒａｔｉｏｎｓ，ｗｅ　ｖｅｒｉｆｙ　ｔｈｅ　ｆｅａｓｉ—　

ｂｉｌｉｔｙ　ａｎｄ　ｅｆｆｉｃｉｅｎｃｙ　ｏｆ　ＧＰＵ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ａｐｐｌｉｅｄ　ｉｎ　ｔｈｅ　ｄｅｓｉｇｎｅｄ　ｓｙｓｔｅｍ．　

Ｋｅｙ　ｗｏｒｄｓ：ｇｅｎｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔｉｎｇ　ｏｎ　ＧＰＵ；ｖｉｒｔｕａｌｉｚａｔｉｏｎ；ＣＵＤＡ；ｌｏａｄ　ｂａｌａｎｃｅ　

收稿日期：２０１３－０８—０２；修回日期：２０１３—１０—０８　

基金项目：国家８６３计划资助项目（２００９ＡＡ０４４６０１）；国家自然科学基金重点项目（６１１３９００２）；江苏高校优势学科建设工程资助项　

目；南京航空航天大学基本科研业务费专项科研项目（ＮＰ２０１３３０８）　

通讯地址：２１００１６江苏省南京市南京航空航天大学计算机科学与技术学院　

Ａｄｄｒｅｓｓ：Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎａｎｉｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ａｅｒｏｎａｕｔｉｃｓ　ａｎｄ　Ａｓｔｒｏｎａｕｔｉｃｓ，Ｎａｎｉｉｎｇ　２１００１６，Ｊｉａｎｇｓｕ，　

Ｐ．Ｒ．Ｃｈｉｎａ　　．

ｌ２０　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ＆Ｓｃｉｅｎｃｅ计算机工程与科学２０１３，３５（１１）　

１　引言　

半导体工艺的发展使得处理器芯片上集成的　

晶体管越来越多，图形处理器ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏ—　

ｃｅｓｓｉｎｇ　Ｕｎｉｔ）的性能也因此得到了飞速的提升。　

２　相关工作　

２．１　基于设备仿真的ＧＰＵ虚拟化　

设备仿真（Ｄｅｖｉｃｅ　Ｅｍｕｌａｔｉｏｎ）通过模拟完整的　

硬件环境为系统提供一个伪设备，通过设备仿真的　

方法实现ＧＰＵ虚拟化，为使用ＧＰＵ的系统提供　

随着ＧＰＵ应用领域的拓展，其功耗问题引起了人　

们越来越多的关注。虽然ＧＰＵ性能功耗比相对　

较高，但远高于ＣＰＵ的绝对功耗成其参与通用计　

个仿真的ＧＰＵ。针对ＧＰＵ在通用计算方面的　

仿真，较有影响的两个方案为Ｂａｒｒａ＿３　、ＧＰＧＰＵ—　

一

算特别是大规模科学计算不可忽略的问题。高功　

耗不仅使得计算的成本增加，也会导致芯片的可靠　

性下降，这是科学计算不能容忍的。　

在各大公司ＩＴ开销不断提高的形势下，虚拟　

化因其具有能够节约成本的优势而受重视。虚拟　

化技术　的引入带来了如下几个方面的好处：更细　

粒度的资源共享、安全隔离、高可靠性等。通过以　

虚拟机ＶＭ（Ｖｉｒｔｕａｌ　Ｍａｃｈｉｎｅ）为粒度的分时复用　

技术，虚拟化平台可以有效地进行服务器整合，以　

提升资源利用率，并最终提高云计算基础设施的整　

体资源利用率。但是，在ＧＰＵ通用计算和虚拟化　

这两个研究领域的结合处，面向ＧＰＵ通用计算的　

虚拟化技术及其相关应用还处于起步阶段，ＧＰＵ　

通用计算虚拟化技术的研究与应用对于基于ＣＰＵ　

＋ＧＰＵ异构平台的超级计算机、云计算和网格计　

算具有重大的理论意义和现实意义。　

针对以上问题，本文借鉴已有的虚拟化技术，　

将ＧＰＵ引入虚拟机，使得虚拟机可以使用ＧＰＵ　

强大的并行能力加速自身计算任务。在ＧＰＵ虚　

拟化技术中引入负载均衡技术，以提高ＧＰＵ资源　

利用率，同时设计一个异构的科学计算系统模拟　

ＧＰＵ虚拟化的应用场景，并通过实验验证ＧＰＵ虚　

拟化的可行性和高效性。　

本文的主要创新点如下：（１）基于ｇＶｉｒｔｕＳ　

（ＧＰＵ　Ｖｉｒｔｕａｌ　Ｓｅｒｖｉｃｅ）［２３引入计算统一设备架构　

ＣＵＤＡ（Ｃｏｍｐｕｔｅ　Ｕｎｉｆｉｅｄ　Ｄｅｖｉｃｅ　Ａｒｃｈｉｔｅｃｔｕｒｅ）管　

理端，提出了一种可动态调度、支持多用户并发的　

虚拟化方案。（２）通过引入综合负载评价值，将负　

载与ＧＰＵ的计算能力以及任务类型和规模相结　

合，提高了ＧＰＵ资源的利用率，缩短了任务的周　

转时间。　

本文第２节简要介绍与本文相关的研究工作，　

并分析它们与我们研究工作的异同；第３节详细地　

介绍了系统的整体框架；第４节介绍ＧＰＵ虚拟化　

方案的关键技术；第５节给出实验平台配置和实验　

结果对比分析；最后，对全文进行总结。　

Ｓｉｍｌ４］

。

Ｂａｒｒａ是首个针对Ｇ８０体系架构　

（ＮＶＩＤＩＡ首个统一渲染架构）的ＧＰＵ功能模拟　

器，在２００９年由Ｃｏｌｌａｎｇｅ　Ｓ等人发布。Ｂａｒｒａ是基　

于ＵＮＩＳＩＭ框架的模拟器，针对ＣＵＤＡ程序开发　

过程中的模拟执行而设计的。　

在设备仿真方式中，实际仿真的设备状态位于　

内存或ＣＰＵ中，虚拟机监视器ＶＭＭ　］（Ｖｉｒｔｕａｌ　

Ｍａｃｈｉｎｅ　Ｍｏｎｉｔｏｒ）可以直接管理这一部分，使得设　

备仿真方式下的ＧＰＵ虚拟化方案可以天然地继　

承ＶＭＭ所有的高级特性。但是，目前的ＧＰＵ种　

类繁多，并且内部结构复杂，一般包含上百亿个电　

气单元，运算速度远远超过传统ＣＰＵ，通过ＣＰＵ　

来仿真ＧＰＵ，从功能上是可行的，但是从效率上相　

差巨大，不具备作为ＶＭＭ虚拟设备的条件和实　

用价值。　

２．２基于设备独占的ＧＰＵ虚拟化　

设备独占即ＰＣＩ　ｐａｓｓ—ｔｈｒｏｕｇｈ是指允许客户　

操作系统直接控制物理设备，可以通过ＰＣＩ　ｐａｓｓ—　

ｔｈｒｏｕｇｈ给客户操作系统分配物理设备，如ＮＩＣ、　

ＵＳＢ　ｃｏｎｔｒｏｌｌｅｒ、声卡等，让客户操作系统能够完全　

地、直接地控制物理设备。但是，ＧＰＵ不是简单的　

ＰＣＩ设备，它需要支持许多遗留下来的ｘ８６功能，　

如传统的ＩＯ端口。Ｘｅｎ　４．０．０增加了ＶＧＡ　ｐａｓｓ—　

ｔｈｒｏｕｇｈ［６　技术，为虚拟机以设备独占方式使用　

ＧＰＵ提供了支持，满足了以上的技术细节，但只能　

被单一虚拟机独占，失去了虚拟化的本质特点，在　

实际中应用很少。　

由于独占使用方案实际上是由客户操作系统　

中使用原生驱动和硬件，绕过ＶＭＭ直接交互，缺　

少ＶＭＭ跟踪和硬件维护设备状态，此方式下的　

方案不支持实时迁移、快照等高级特性。Ｘｅｎ和　

ＶＭｗａｒｅ在其产品中明确指出，一旦开启了ＶＧＡ　

ｐａｓｓ—ｔｈｒｏｕｇｈ或ＶＭＤｉｒｅｃｔＰａｔｈ　Ｉ／Ｏ，其对应的虚　

拟机将失去挂起／恢复、实时迁移的功能。　

２．３基于远程ＡＰＩ的ＧＰＵ虚拟化　

ＡＰＩ虚拟化即应用程序接口重定向，通过拦截　

张云洲等：面向多任务的ＧＰＵ通用计算虚拟化技术研究　

与ＧＰＵ相关的ＡＰＩ，使用重定向或者模拟的方　

式，利用拥有相应硬件的服务器或者模拟的硬件完　

成相应功能，再将相应的执行结果返回给应用程　

序。２００７年，ＮＶＩＤＩＡ推出了第一个ＧＰＵ通用计　

算专用框架——ＣＵＤＡ，随后涌现了一批探讨ＣＵ—　

ＤＡ在虚拟机内应用的方案，如ｖＣＵＤＡ（ｖｉｒｔｕａｌ　

ＣＵＤＡ）　、ＧＶｉｍ（ＧＰＵ—ａｃｃｅｌｅｒａｔｅｄ　Ｖｉｒｔｕａｌ　ｍａ—　

ｃｈｉｎｅｓ）Ｅ引、ｒＣＵＤＡ（ｒｅｍｏｔｅ　ＣＵＤＡ）［　、ｇＶｉｒｔｕＳ＿ｌ０］　

等。ｖＣＵＤＡ通过在用户层拦截和重定向ＣＵＤＡ　

调用，同时在虚拟机中建立ＧＰＵ的逻辑映像——　

ｖＧＰＵ（ｖｉｒｔｕａｌ　ＧＰＵ），使得开发难度大大降低，但　

是造成了很大的性能损失。ＧＶｉｍ中的解决方案　

依赖于特定的Ｘｅｎ虚拟化平台，建立了与Ｘｅｎ命　

名规则相匹配的前后端，共有四个模块：前端、后　

端、拦截库、库封装器。ｒＣＵＤＡ是一个远程执行　

ＣＵＤＡ的框架，服务器与客户端之间的通信直接　

采用ｓｏｃｋｅｔ方式而不是ＲＰＣ方式，在效率上相对　

ｖＣＵＤＡ有所提升。ｇＶｉｒｔｕＳ综合ｖＣＵＤＡ和　

ＧＶｉｍ两者的优点，并在其基础上独立地实现了　

ＧＰＵ虚拟化的架构，保证了平台无关性，适用于　

Ｘａｎ、ＶＭｗａｒｅ、ＫＶＭ等主流的虚拟化平台，同时　

改善了数据通道的性能。　

基于远程ＡＰＩ的虚拟化解决方案把研究重点　

要么放在对域间通信和数据传输的优化上，要么依　

赖于特定的虚拟化平台，并没有针对ＧＰＵ自身的　

结构特点设计出适合在ＧＰＵ虚拟化环境下的内　

部任务的调度算法。本文基于提高ＧＰＵ资源的　

利用率和降低任务的周转时间的出发点，在ｇＶｉｒ—　

ｔｕＮ的基础上引入ＣＵＤＡ管理端，管理端采用集　

中、灵活的机制对ＧＰＵ资源进行统一管理，对　

ＧＰＵ内部任务统一调度，ＧＰＵ内部任务调度通过　

对多类型多任务计算时间的反馈信息来设置综合　

负载评价值，以实现负载均衡。　

３　系统架构　

在ｇＶｉｒｔｕＳ的基础上，本文虚拟化框架采用经　

典的ｃ／ｓ模式，引入ＣＵＤＡ管理端，系统框架共　

包含三个模块：ＣＵＤＡ客户端、ＣＵＤＡ服务端和　

ＣＵＤＡ管理端。以Ｘｅｎ平台为例，本文虚拟化方　

案的整体框架如图１所示。　

３．１　ＣＵＤＡ客户端　

客户端组件位于客户操作系统（Ｇｕｅｓｔ　ＯＳ）应　

用层，主要的功能是在用户层提供针对ＣＵＤＡ　

ＡＰＩ的伪库（Ｆａｋｅ　Ｌｉｂｒａｒｙ）和一个维护ＣＵＤＡ相　

１２１　

应　

用　

层　

系　

统　

理　

ＶＭＭ，特权域　非特权域　

Ｆｉｇｕｒｅ　１　Ｆｒａｍｅｗｏｒｋ　ｏｆ　ＧＰＵ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　

图１　ＧＰＵ虚拟化框架　

关软硬件状态的虚拟ＧＰＵ（ｖＧＰＵ）。ＣＵＤＡ客户　

端直接面向ＣＵＤＡ应用程序，其作用包括：（１）拦　

截应用程序中ＣＵＤＡ　ＡＰＩ调用；（２）选择通信策　

略，为虚拟化提供更高层语义的支持；（３）对调用的　

接口和参数进行封装、编码；（４）对服务端返回的数　

据进行解码，并返回给应用。此外，ＣＵＤＡ客户端　

在第一个ＡＰＩ调用到来之前，首先到管理端索取　

ＧＰＵ资源。每一个独立的调用过程都必须到管理　

端申请资源，以实现对ＧＰＵ资源和任务的实时调　

度。　

３．２　ＣＵＤＡ服务端　

服务端组件位于特权虚拟机（Ｘｅｎ中的特权　

域）中的应用层。ＣＵＤＡ服务端面向真实ＧＰＵ，　

其作用包括：（１）接收客户端的数据报，并解析出调　

用和参数；（２）对调用和参数进行审核；（３）利用　

ＣＵＤＡ和物理ＧＰＵ计算审核通过的调用；（４）将　

结果编码，并返回给客户端；（５）对计算系统中支持　

ＣＵＤＡ的ＧＰＵ进行管理。此外，ＣＵＤＡ服务端运　

行的第一个任务是将自身支持ＣＵＤＡ的ＧＰＵ设　

备的信息注册到ＣＵＤＡ管理端中。　

ＣＵＤＡ服务端采用虚拟机ＩＤ和进程ＩＤ进行　

识别，相应的ＣＵＤＡ客户端编码是在数据报之前　

加上相应的识别信息。服务端收到数据报，解码后　

审核相应的识别信息，审核通过后启动对应的工作　

线程。工作线程由ＣＵＤＡ服务端创建，其生存周　

期对应于ＣＵＤＡ应用的调用周期，自第一个调用　

开始，终于最后一个调用。工作线程按ＦＩＦＯ的原　

则处理ＣＵＤＡ应用，从数据报中获取ＡＰＩ和参　

数，然后调用本地ＧＰＵ资源处理。　

３．３　ｃｕＤＡ管理端　

管理端组件可位于任何位置，在实现ＣＵＤＡ　

１２２　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　８Ｌ　Ｓｃｉｅｎｃｅ计算机工程与科学２０１３，３５（１１）　

编程接口虚拟化的基础上，将ＧＰＵ强大的计算能　

力和计算资源在更高的逻辑层次上进行隔离、划　

分、调度。在ＣＵＤＡ服务端使用计算线程和工作　

线程在一定程度上使同在一个物理机上的ＧＰＵ　

ＧＰＵ的时钟频率，Ｇ表示ＧＰＵ的全局内存。ａ为　

ＧＰＵ处理能力的影响因子，口为全局内存的影响　

因子，ａ、　为０～１的常数，且ａ＋　一１。　、　的设　

置取决于负载的属性，如负载对处理能力要求高，　

则提高ａ的值，如负载对全局内存需求较高，则适　

当提高　的值，当任务规模小于全局内存时，　则　

设为０。ＣＵＤＡ管理端调度流程如图２所示。　

间负载均衡，设置ＣＵＤＡ管理端组件在更高的逻　

辑层次上进行负载均衡，使在同一个ＧＰＵ虚拟集　

群中的ＧＰＵ负载均衡。管理端组件调度的原则　

是尽量使在同一个物理机上的ＧＰＵ需求自给，如　

果该物理机上具备满足条件的ＧＰＵ资源，在一般　

情况下，该物理机上的虚拟机的ＧＰＵ需求都重定　

向到该物理机的ＣＵＤＡ服务端。管理端组件采取　

的调度算法将在关键技术处详述。　

ＣＵＤＡ管理端对ＧＰＵ资源进行统一管理，采　

用集中、灵活的机制，实现：（１）动态调度：当用户所　

占资源空闲时间超过一定阈值或者任务结束时，管　

理端回收该资源，当该用户再次发布计算任务时，　

重新为其任务分配ＧＰＵ资源；（２）负载平衡：当局　

部计算压力过大时，调整计算负载，通过动态调度　

时选择合适的ＧＰＵ资源来分散计算负载；（３）故　

障恢复：当出现故障时，将任务转移到新的可用　

ＧＰＵ资源上。　

４　面向多任务的ＧＰＵ虚拟化方案　

４．１　ＧＰＵ内部任务调度　

基于ＧＰＵ特征的任务调度由３．３节中ＣＵ—　

ＤＡ管理端完成，调度流程如图２所示。ＧＰＵ运　

算的速度并非取决于ｂｌｏｃｋ数量或者ｔｈｒｅａｄ数量，　

而是与ＳＭ数量密切相关，并且运算效率与ＧＰＵ　

本身的内核数和时钟频率乘积大概成正比…］。　

ＧＰＵ全局内存的大小对计算效率的影响也非常　

大，如果计算规模大于ＧＰＵ全局内存规模，计算　

不能在ＧＰＵ上一次完成，会引入额外的通信开　

销，故注册信息中主要包含处理核心的数量、时钟　

频率以及全局内存。管理端将注册信息中的ＧＰＵ　

特征因素纳入负载评价考量范围，并以此调度任　

务。　

本文为服务端ＧＰＵ设置一个综合负载评价　

值Ｊ：　

∑Ｓｃａｌｅ　＊ｃｍｐｌｘ　

一　

其中，Ｍ为当前ＧＰＵ上的任务总数，Ｓｃａｌｅ　为　

ＧＰＵ上第ｉ个任务的规模大小，ｃｍｐｌｘ　为第ｉ个　

任务的计算复杂度，Ｐ表示ＧＰＵ的核数，Ｒ表示　

Ｆｉｇｕｒｅ　２　Ｓｃｈｅｄｕｌｉｎｇ　ｐｒｏｃｅｓｓ　ｏｆ　ＣＵＤＡ　ｍａｎａｇｅ－ｅｎｄ　

图２　ＣＵＤＡ管理端调度流程　

在ＧＰＵ综合负载评价值的主要参数里，任务　

规模Ｓｃａｌｅ　由ＣＵＤＡ应用程序提供在接口参数　

中。在ＣＵＤＡ管理端中维护一张任务信息表，不　

同任务类型对应于不同的复杂度以及相应的ａ、口　

值，ｃｍｐｌｘ　由ＣＵＤＡ客户端提供的任务类型所决　

定。如单精度浮点加、乘、乘加的任务类型都定义　

为１，其对应的复杂度为１；求倒的任务类型为２，　

复杂度为４；除法的任务类型为３，复杂度为９．０９　

等ｌｌ　。Ｐ、Ｒ、Ｇ等均由ＣＵＤＡ服务端的注册信息　

所提供，并由ｃＵＤＡ管理端维护。　

ＣＵＤＡ管理端针对ＧＰＵ任务的调度原则是　

优先本地处理，这是由ＧＰＵ虚拟化方案的通信机　

制所决定的，这样可大大降低由于数据传输所带来　

的性能开销。ＣＵＤＡ服务端向ＣＵＤＡ管理端注　

册时，通过注册关键信息按照综合负载评价值的公　

式计算出综合负载评价值。ＣＵＤＡ客户端向ＣＵ—　

ＤＡ管理端请求服务时，首先更新本地服务端的综　

合负载评价值，然后将本地服务端的负载评价值乘　

以一个权值系数，并加入表项中排序，得出最小的　

项即负载最低的，并将其分配给ＣＵＤＡ客户端。　

权值系数的大小可以控制对本地服务端的优先级，　

张云洲等：面向多任务的ＧＰＵ通用计算虚拟化技术研究　

权值系数设置得越小，本地服务端提供服务的可能　

性越大。权值系数可以看作是本地服务端的优先　

级和自身负载的一个比值。　

４．２通信策略　

面向多任务的ＧＰＵ虚拟化方案中设计的通　

信策略的主要优化工作在于虚拟机域间通信，在　

跨ＶＭＭ的通信方面目前还不存在任何优化的　

软件方案，只能依靠例如ＩｎｆｉｎｉＢａｎｄ　这类特殊　

硬件的解决方案。目前主流的虚拟化平台上并　

不存在通用的高效通信方式，为了使得虚拟化框　

架通用，本文在不同的虚拟化平台中设计或应用　

不同的特殊通信机制。本文在Ｘｅｎ平台下使用　

了ＸｅｎＬｏｏｐ加速域间通信，ＶＭｗａｒｅ平台下使用　

了ＶＭＣＩ［１　方式。在远程条件下采用通用的套　

接字进行通信。　

５　实现分析　

５．１实验环境　

本文选取科学计算中较为常见的典型应用进　

行分析，从矩阵乘法方面对系统的性能进行测试，　

并对结果进行分析。系统的体系结构由视图服务　

器、配置服务器、调度服务器、计算资源服务器组　

成。系统基于的软、硬件环境如表１所示。其中计　

算节点使用虚拟机，宿主物理机为两台服务器，一　

台配置为Ｉｎｔｅｌ　Ｘｅｏｎ　Ｅ７－４８３０、Ｔｅｓｌａ　Ｃ２ｏ５ｏ＊４、　

４８ＧＢ内存，另一台为Ｉｎｔｅｌ　Ｃｏｒｅ　ｉ５－２３００、Ｔｅｓｌａ　

Ｃ２０５０＊２、１６　ＧＢ内存。对于ＧＰＵ虚拟化组件中　

的特权域，目前并不存在适用于Ｘｅｎ下ＤＯＭＡＩＮ　

０中的显卡驱动，本文通过在Ｘｅｎ中非特权虚拟机　

中使用ＰＣＩ　ｐａｓｓ—ｔｈｒｏｕｇｈ技术，使得该非特权域获　

得物理ＧＰＵ的访问权，并在此非特权域部署ＣＵ－　

ＤＡ服务端组件，使其充当特权域的角色。实验中　

使用的矩阵乘法实现为ＮＶＩＤＩＡ—ＧＰＵ—ＣＯＭ—　

ＰＵＴＩＮＧ

—

ＳＤＫ　３．２．１６中简单矩阵乘法。　

Ｔａｂｌｅ　１　ＣＯｎｆｉｇｕｒａｔｉＯｎ　ｏｆ　ｓｙｓｔｅｍ　ｅｎｖｉｒｏｎｍｅｎｔ　

表１　系统环境配置　

节点名称　数量　硬件环境描述　篷描述　

视图服务器　１　

Ｉｎｔｅｌ　Ｃｏｒｅ　ｉ５、４ＧＢ内存　

配置服务器　１　

Ｉｎｔｅｌ　Ｃｏｒｅ　ｉ５、４ＧＢ内存　

调度服务器　１　

Ｉｎｔｅｌ　Ｃｏｒｅ　ｉ５、４ＧＢ内存　

资源服５（初始态）　ｖＣＰＵ＊２、１ＧＢ内存　

Ｃｅｎｔｏｓ５．７　

ＣＵＤＡ　３．２．１６　

务器　一　…　

Ｔｅｓｌａ　Ｃ２０５０（虚拟化）　

Ｘｅｌｌ　４．０．１　

１２３　

５．２影响因子的获得　

本文中　、口的取值根据给定任务的周转时间　

的反馈来设定加上或减去０．０２的步长，当周转时　

间达到最短时，对应ａ、　的值就为相应的任务类　

型的值。系统对每个ａ、　定义数据结构ｓｔｒｕｃｔ　

ｇｅｔ

ａｌｐｈａ

ａｎｄ

—

ｂｅｔａ｛ｆｌｏａｔ　ａ；ｆｌｏａｔ　；ｆｌｏａｔ　ｃｙｃｌｉｎｇ

—　

ｔｉｍｅ；），对每个ａ和　的可能取值都进行验证，并　

将结果按ｓｔａｔｅ－￣ｃｙｃｌｉｎｇ—ｔｉｍｅ升序排序，返回　

ｓｔａｔｅ－￣ｃｙｃｌｉｎｇ

ｔｉｍｅ最小值所对应的ｄ和　，相同　

大小则返回平均值。本文以矩阵乘法为例，通过设　

定不同的ａ和　值，将任务发送到不同的计算资源　

服务器，最后通过对周转时间的反馈来评价ａ和口　

的最优组合并写入注册信息表。　

５．３实验结果及对比分析　

为了保证客户端不成为影响实验结果的瓶颈，　

实验还配置了多台负载发生器。为了得到较为精　

确的ａ和口，本文通过客户端随机生成一定数量的　

任务提交至ＣＵＤＡ管理端，并由管理端平均分发　

到ＧＰＵ中。如图３是当前用户第一次提交矩阵　

相乘的任务至不同ＧＰＵ时得到的反馈时间（ａ和　

口的取值决定负载评价值　，进而指定ＧＰＵ完成任　

务），并由此确定ａ和　的取值。结果表明，当ａ的　

取值在０．７１～Ｏ．８３时，任务的周转时间最短，则此　

时设置ａ一０．７７，Ｉ９—０．２３，并写入任务信息表。　

假设Ａ、Ｂ、Ｃ均为Ｎ＊Ｎ规模的矩阵，且Ｃ—Ａ＊　

Ｎ　

Ｂ，则ｃ中元素的计算公式为ｃ　，一　Ａ　Ｂ目。由　

＝ｌ　

此可见，矩阵乘法总计算量的数量级是０（』＼，。），访　

问存储量的数量级为Ｏ（Ｎ。），计算访存比为　

０（Ｎ），是一个典型的计算密集型任务，因此其对　

于ＧＰＵ的处理能力相对较高，故而相对于　，ａ的　

取值也较大。　

■周转时间／ｍｓ　

Ｆｉｇｕｒｅ　３　Ｔａｓｋ　Ｓ　ｔｕｒｎａｒｏｕｎｄ　ｔｉｍｅ　ｗｉｔｈ　ｄｉｆｆｅｒｅｎｔ　ｑ　ａｎｄ　８　

图３任务在不同　、卢配置下的周转时间（　一１－－ａ）　

针对单个任务利用ＧＰＵ虚拟化的效率对比，　

由图４ａ可以看出，本地ＧＰＵ、ｇＶｉｒｔｕＳ与本文，在　

任务规模变大时，本文的效率慢慢接近于本地　

１２４　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ＆Ｓｃｉｅｎｃｅ计算机工程与科学２０１　３，３５（１１）　

ＧＰＵ和ｇＶｉｒｔｕＳ。相比本地ＧＰＵ的方式，本文增　有力地说明了本文ＧＰＵ虚拟化方案在多机环境　

加了ＣＵＤＡ服务端与ｃＵＤＡ客户端之问的通信　

开销，比ｇＶｉｒｔｕＳ增加了调度开销，在计算规模变　

大时，计算时间同时增加，则开销在总时间的比例　

下的优越性。由于本地（ｎａｔｉｖｅ）模式并不能适用　

于多机环境下，两台服务器并不能在同一时间同时　

使用，图中得出的数据为两台服务器ｎａｔｉｖｅ模式　

下的平均值。　

越来越少，可忽略不计。同时，本文的方式支持多　

用户并发、负载均衡，在多ＧＰＵ和多任务的情况　

下明显优于另外两种方式。由图４ｂ可知，在给定　

６　结束语　

时间内，本文完成任务数明显大于另外两种方式。　

阶数　

ａ

单任务下时间效率比较　

任务提交数　

ｈ多任务下完成数比较　

Ｆｉｇｕｒｅ　４　Ｔｉｍｅ　ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｓｉｎｇｌｅ　ｔａｓｋ　ａｎｄ　ｎｕｍｂｅｒ　

ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｍｕｌｔｉ—ｔａｓｋ　ｆｉｎｉｓｈｅｄ　ｗｉｔｈｉｎ　ｃｅｒｔａｉｎ　ｔｉｍｅ　

图４单任务下任务时间效率比较和多任务完成数比较　

图５为在某一台服务器上一定时间（时间根据　

任务数确定）内随机产生固定任务数的情况。　

Ｕ　１００　２ＬＨＪ　３００　４００　

任务数　

Ｆｉｇｕｒｅ　５　Ｎｕｍｂｅｒ　ｃｏｍｐａｒｉｓｏｎ　ｏｆ　

ｍｕｌｔｉ　ｔａｓｋ　ｆｉｎｉｓｈｅｄ　ｗｉｔｈｉｎ　ｃｅｒｔａｉｎ　ｔｉｍｅ　

图５多任务下应用系统任务完成数比较，　

ｘ轴为提交的任务数，ｙ轴为完成的任务数　

图５中显示的是最差情况下和最优情况下本　

地环境与本文虚拟化方案的任务完成情况的曲线。　

从图５中可以看出，本文虚拟化方案能够维护工作　

线程，防止了本地环境中因ＧＰＵ资源忙而导致的　

任务直接终止。随机情况更类似实际应用环境，更　

本文在ｇＶｉｒｔｕＳ的基础上，结合分布式系统思　

想和可扩展性设计的原则，设计了一个面向多任务　

的ＧＰＵ通用计算虚拟化解决方案，通过在大规模　

科学计算的系统来模拟ＧＰＵ虚拟化技术的应用　

场景。以目前最成熟、应用最广泛的ＣＵＤＡ框架　

为研究对象，实现了ＣＵＤＡ在虚拟化平台下的透　

明运行方案，使得以ＣＵＤＡ为基础的ＧＰＵ通用计　

算成功地在虚拟机中运行，通过实验说明了解决方　

案的有效性和高效性。此外，仍存在一些问题有待　

进一步改进。例如，ＧＰＵ虚拟化中的容错机制不　

够完善，在单任务的情况下，ＧＰＵ虚拟化的效率和　

本地ＧＰＵ之间仍有差距。相关的改进与测试将　

在后续工作中展开，并对容错机制进一步深入研　

究，最终使ＧＰＵ虚拟化技术的可靠性更高，应用　

系统更完善，能够以ＳａａＳ１］朝（Ｓｏｆｔｗａｒｅ　ａｓ　ａ　Ｓｅｒｖ　

ｉｃｅ）的模式提供服务的效果。　

参考文献：　

［１］Ｔｈｅ　ｇｒｏｕｐ　ｏｆ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ａｎｄ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ．Ｖｉｒｔｕａｌｉｚａ—　

ｔｉｏｎ　ａｎｄ　ｃｏｍｐｕｔｉｎｇ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｅｌｅｃｔｒｏｎｉｃ　Ｉｎｄｕｓｔｒｙ　Ｐｒｅｓｓ，　

２００９．（ｉｎ　Ｃｈｉｎｅｓｅ）　

［２］Ｇｉｕｎｔａ　Ｇ，Ｍｏｎｔｅｌｌａ　Ｒ，Ａｇｒｉｌｌｏ　Ｇ，ｅｔ　ａ１．Ａ　ＧＰＧＰＵ　ｔｒａｎｓ—　

ｐａｒｅｎｔ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｃｏｍｐｏｎｅｎｔ　ｆｏｒ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕ—　

ｉｒｎｇ　ｃｌｏｕｄｓ［ｃ］∥Ｐｒｏｃ　ｏｆ　ｔｈｅ　１　６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｅｕｒｏ—Ｐａｒ　

Ｃｏｎｆｅｒｅｎｃｅ，２Ｏ１０：３７９－３９１．　

［３］Ｃｏｌｌａｎｇｅ　Ｓ，Ｄｅｆｏｕｒ　Ｄ，Ｐａｒｅｌｌｏ　Ｄ．Ｂａｒｒａ，ａ　ｍｏｄｕｌａｒ　ｆｕｎｃｔｉｏｎａｌ　

ＧＰＵ　ｓｉｍｕｌａｔｏｒ　ｆｏｒ　ＧＰＧＰＵ［Ｒ］．Ｔｅｃｈｎｉｃａｌ　Ｒｅｐｏｒｔ　ｈａｌ一　

００３５９３４２，２００９．　

［４］　Ｂａｋｈｏｄａ　Ａ，Ｙｕａｎ　Ｇ，Ｆｕｎｇ　Ｗ，ｅｔ　ａ１．Ａｎａｌｙｚｉｎｇ　ＣＵＤＡ　ｗｏｒｋ—　

ｌｏａｄｓ　ｕｓｉｎｇ　ａ　ｄｅｔａｉｌｅｄ　ＧＰＵ　ｓｉｍｕｌａｔｏｒ［Ｃ］ｆｆ　Ｐｒｏｃ　ｏｆ　ＩＳＰＡＳＳ　

０９，２００９：１６３—１　７４．　

［５］Ｌａｈａｂａｒ　Ｓ，Ａｇｒａｗａｌ　Ｐ，Ｎａｒａｙａｎａｎ　Ｐ　Ｊ．Ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｐａｔ—　

ｔｅｒｎ　ｒｅｃｏｇｎｉｔｉｏｎ　ｏｎ　ＧＰＵ［ｃ］∥Ｐｒｏｃ　ｏｆ　Ｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　

ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　

ａｎｄ　Ｇｒａｐｈｉｃｓ，２００８：１　５４—１５９．　

［６］Ｘｅｎ　ＶＧＡ　ｐａｓｓｔｈｒｏｕｇｈ［ＥＢ／ＯＩ　］．［２０１２　１２－０６］．ｗｉｋｉ．Ｘｅｎ　

ｓｏｕｒｃｅ．ｃｏｍ／Ｘｅｎｗｉｋｉ／ＸｅｎＶＧＡＰａｓｓｔｈｒｏｕｇｈ．　

［７］Ｓｈｉ　Ｉ　，Ｃｈｅｎ　Ｈ，Ｓｕｎ　Ｊ．ｖＣＵＤＡ：ＧＰＵ　ａｃｃｅｌｅｒａｔｅｄ　ｈｉｇｈ　ｐｅｒ一　

｛ｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ｉｎ　ｖｉｒｔｕａｌ　ｍａｃｈｉｎｅｓ［Ｃ］？ｆ　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒ　

ｎａｔｉｏｎａｌ　Ｐａｒａｌｌｅｌ＆Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｍｐｏｓｉｕｍ，２００９：　

张云洲等：面向多任务的ＧＰＵ通用计算虚拟化技术研究　

ｌ一１１．　

Ｅ８］　

Ｇｕｐｔａ　Ｖ，Ｇａｖｒｉｌｏｖｓｋａ　Ａ，Ｓｃｈｗａｎ　Ｋ，ｅｔ　ａ１．Ｇｖｉｍ：Ｇｐｕ—ａｃ—　

ｃｅｌｅｒａｔｅｄ　ｖｉｒｔｕａｌ　ｍａｃｈｉｎｅｓ［Ｃ］ｆｆ　Ｐｒｏｃ　ｏｆ　ＡＣＭ　Ｗｏｒｋｓｈｏｐ　ｏｎ　

Ｓｙｓｔｅｍ——ｌｅｖｅｌ　Ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｆｏｒ　Ｈｉｇｈ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｃｏｍｐｕ—－　

ｔｉｎｇ，２００９：１７－２４．　

［９］　

Ｄｕａｔｏ　Ｊ，Ｐｅｎａ　Ａ，Ｓｉｌｌａ　Ｆ，ｅｔ　ａ１．ｒＣＵＤＡ：Ｒｅｄｕｃｉｎｇ　ｔｈｅ　ｈｕｍ—　

ｂｅｒ　ｏｆ　ＧＰＵ—ｂａｓｅｄ　ａｃｃｅｌｅｒａｔｏｒｓ　ｉｎ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｌｕｓｔｅｒｓ　

［Ｃ］／／Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｈｉｇｈ　Ｐｅｒｆｏｒｍａｎｃｅ　

Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｓｉｍｕｌａｔｉｏｎ。２０１０：２２４—２３１．　

［１Ｏ］　

Ｇｉｕｎｔａ　Ｇ，Ｍｏｎｔｅｌｌａ　Ｒ，Ａｇｒｉｌｌｏ　Ｇ，ｅｔ　ａ１．Ａ　ＧＰＧＰＵ　ｔｒａｎｓ　

ｐａｒｅｎｔ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｃｏｍｐｏｎｅｎｔ　ｆｏｒ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｅｏｍ—　

ｐｕｔｉｎｇ　ｃｌｏｕｄｓ［Ｃ］，，Ｐｒｏｃ　ｏｆ　ＥｕｒｏＰａｒ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌｌｅｌ　

Ｐｒｏｃｅｓｓｉｎｇ，２０１０：３７９　３９１．　

［１Ｉ］　

ＩＡ　Ｗｅｎ－ｌｉａｎｇ．Ｋｅｙ　ｔｅｃｈｎｏｌｏｇｙ　ｒｅｓｅａｒｃｈ　ｏｆ　ＧＰＵ　ｃｌｕｓｔｅｒ　ｓｃｈｅｄｕ—　

ｌｉｎｇ　ｍａｎａｇｅｍｅｎｔ　ｓｙｓｔｅｍ［Ｄ］．Ｗｕｈａｎ：Ｈｕａｚｈｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　

ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，２０１１．（ｉｎ　Ｃｈｉｎｅｓｅ）　

［１２］　

Ｚｈａｎｇ　Ｓｈｕ．Ｃｈｕ　Ｙａｎ—ｌｉ．ＣＵＤＡ　ＧＰＵ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｒｎ—　

ｐｕｔｉｎｇ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｃｈｉｎａ　ＷａｔｅｒＰｏｗｅｒ　Ｐｒｅｓｓ，２００９．（ｉｎ　

Ｃｈｉｎｅｓｅ）　

［１３］　

Ｈａｏ　Ｓｈｕｉ　ｘｉａ，Ｚｅｎｇ　Ｇｕｏ　ｓｕｎ，Ｔａｎ　Ｙｉ　ｍｉｎｇ．Ｓｃａｌａｂｉｌｉｔｙ　ａ—　

ｎａｌｙｓｉｓ　ｏｆ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｃｏｍｐｕｔｉｎｇ　ｂａｓｅｄ　ｏｎ　ｃｏｍｐｕｔａｔｉｏｎ　

ｔａｓｋ　ａｎｄ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｔｏ　ｍａｔｃｈ［Ｊ］．ＡＣＴＡ　Ｅｌｅｃｔｒｏｎｉｅａ　Ｓｉｎｉ—　

ｃａ，２Ｏ１０，３８（１１）：２５８５－２５８９．（ｉｎ　Ｃｈｉｎｅｓｅ）　

［１４］　

ＶＭＣ１　０ｖｅｒｖｉｅｗ［ＥＢ／０Ｌ］．［２０１２—０５—１８］．ｈｔｔｐ：／／ｐｕｂｓ．ｖｍ—　

ｗａｒｅ．ｃｏｍ／ｖｍｅｉ—ｓｄｋ／ＶＭＣＩ

ｉ　ｎｔｒｏ．ｈｔｍ１．　

［１５］　

Ｗａｎｇ　Ｚｈｕｏ　ｈａｏ，Ｚｈａｏ　Ｚｈｕｏ　ｆｅｎｇ，Ｆａｎｇ　Ｊｕｎ，ｅｔ　ａ１．Ａ　ＳａａＳ－　

ｆｒｉｅｎｄｌｙ　ｓｅｒｖｉｃｅ　ｃｏｍｍｕｎｉｔｙ　ｍｏｄｅｌ　ａｎｄ　ｉｔｓ　ａｐｐｌｉｃａｔｉｏｎ　ｉｎ　ｔｈｅ　

ｎａｔｉｏｎｗｉｄｅ　ｓｅｒｖｉｃｅ　ｎｅｔｗｏｒｋ　ｆｏｒ　ｓｈａｒｉｎｇ　ｓｃｉｅｎｃｅ　ａｎｄ　ｔｅｃｈｎｏｌｏ—　

ｇＹ　ｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．Ｃｈｉｎｅｓｅ　Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒｓ，２０１０，３３　

（】１）：２Ｏ３３—２０４３．（ｉｎ　Ｃｈｉｎｅｓｅ）　

附中文参考文献：　

［１］虚拟化与云计算小组．虚拟化与云计算［Ｍ］．北京：电子工业　

出版社，２００９．　

１２５　

［１１］　李文亮．ＧＰＵ集群调度管理系统关键技术的研究［Ｄ］．武　

汉：华中科技大学，２０１１．　

［１２］张舒，褚艳利．ＧＰＵ高性能运算之ＣＵＤＡ［Ｍ］．北京：中国水　

利水电出版社，２００９．　

［１３３郝水侠，曾国荪，谭一鸣．计算任务与体系结构匹配的异构　

计算可扩展性分析［Ｊ］．电子学报，２０１０，３８（１１）：２５８５—　

２５８９．　

［１５］王卓吴，赵卓峰，房俊．一种ＳａａＳ模式下的服务社区模型及　

其在全国科技信息服务网中的应用［Ｊ］．计算机学报，　

２Ｏ１０，３３（１１）：２０３３—２０４３．　

作者简介：　

张云洲（１９８９一），男，安徽长丰人，硕　

士生，研究方向为高性能计算和虚拟化。　

Ｅ－ｍａｉｌ：ｚｃｌｏｕｄｚ＠ｎｕａａ．ｅｄｕ．ｃｎ　

ＺＨＡＮＧ　Ｙｕｎ－ｚｈｏｕ，ｂｏｒｎ　ｉｎ　１９８９，ＭＳ　

ｃａｎｄｉｄａｔｅ，ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　

ａｌｉｚａｔｉｏｎ．　

袁家斌（１９６８一），男，江苏兴化人，博　

士后，教授，研究方向为高性能计算和量子　

密码。Ｅ－ｍａｉｌ：ｏｋ＠ｎｕａａ．ｅｄｕ．ｃｎ　

ＹＵＡＮ　Ｊｉａ－ｂｉｎ，ｂｏｒｎ　ｉｎ　１９６８，ｐｏｓｔ　ｄｏｃ—　

ｔｏｒ，ｐｒｏｆｅｓｓｏｒ，ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　

ｔｕｒｎ　ｃｒｙｐｔｏｇｒａｐｈｙ．　

吕相文（１９８５一），男，江苏泰州人，博　

士生，研究方向为高性能计算和量子计算　

模拟。Ｅ－ｍａｉｌ：ｘｗｌｖ＠ｎｕａａ．ｅｄｕ．ｃｎ　

ＬＵ　Ｘｉａｎｇ－ｗｅｎ．ｂｏｒｎ　ｉｎ　１９８５。ＰｈＤ　ｃａｎ—　

ｄｉｄａｔｅ，ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ＨＰＣ，　

ａｎｄ　ｑｕａｎｔｕｍ　ｃｏｍｐｕｔｉｎｇ　ｓｉｍｕｌａｔｉｏｎ．　

面向多任务的GPU通用计算虚拟化技术研究_论文

发布评论取消回复

最近发表

相关推荐

标签列表

面向多任务的GPU通用计算虚拟化技术研究_论文

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复