首页 > 焦点要闻 > NVIDIA GPU虚拟化技术发展历程

NVIDIA GPU虚拟化技术发展历程

2019-01-29 11:05  

基本信息

日前,NVIDIA召开媒体沟通会,介绍了GPU虚拟化技术发展历程和vGPU 7.1 的最新特性。
 
NVIDIA Proviz亚太区业务主管沈威
 
NVIDIA中国区高级市场总监刘念宁
 
2013-2014年,NVIDIA发布面向工作站的虚拟化解决方案,并在数据中心开始布局。近年来,随着深度学习的兴起,GPU在数据中心已经成常态的配置。
 
NVIDIA GPU虚拟化高级解决方案架构师张洁
 
硬件与软件的平衡
 
据NVIDIA GPU虚拟化高级解决方案架构师张洁介绍,由于vGPU是纯软件解决方案,产品迭代速度会比硬件快。从IT角度来看,硬件的效率高,但会损失一些灵活性;软件的效率相对低一些,但灵活性、可管理性、可调度性会更快。二者结合可以产生更完美的解决方案。
 
例如NVIDIA从P系列、Pascal架构到V系列VOLTA架构,硬件层面新增了一个专门面向人工智能的芯片来提供人工智能的加速——Tensor Core。到了T系列(图灵架构)上又增加了RT Core,专门做实时光线追踪的硬件。但有一些功能通过硬件迭代方式没有那么快,就需要GPU上有一些功能通过软件方式快速地交付给用户。
 
NVIDIA vGPU解决方案和NVIDIA的发展是相匹配的。最初,NVIDIA做的事情是拿GPU做图形显示和图形加速,比较有代表性的企业级解决方案是专业图形工作站。最典型的场景是企业里有100个设计员工,配备100个图形工作站,每个图形工作站有一颗GPU。
 
通过对图形负载进行虚拟化,可以把性能非常强大的GPU卡虚拟成很多小的逻辑的、虚拟的vGPU,这样可以方便地把图形用户从传统的物理工作负载方式迁移到数据中心。
 
近些年,人工智能开始火起来,vGPU解决方案也同步发力。两年前,vGPU 5.0引入了vGPU做计算的概念,出现了一个有意思的情况:一个vGPU既可以用来做图形的应用,也可以用来做计算的应用,这样可以通过软件方式把GPU进行了重新定义,整个用户场景被完全打开。
 
现在,绝大多数在物理GPU上运行的负载都可以在一定程度上迁移到虚拟化上,这也是NVIDIA发展的方向:通过虚拟化手段,使得传统的散落在用户端的GPU集中到数据中心进行统一管理。用户只需要按照需求使用GPU算力。因此,NVIDIA与合作伙伴在用户端衍生出非常多基于GPU虚拟化的解决方案。
 
vGPU 7.0发布之前,用户购买NVIDIA一个性能非常强劲的GPU,可以对其切割,分配给很多用户用。那么,问题来了:一个性能很强劲的物理GPU经过切割后,性能是否会有损失?是不是对GPU性能要求非常高的用户不适合做虚拟化?
 
NVIDIA认为,因为vGPU是软件解决方案,因此用户发现哪些地方有问题,就可以通过软件形式快速迭、纠正问题、解决痛点。
 
vGPU 7.0以后,实现了可以把多个物理GPU虚拟化以后分配给某一个用户。现在可以实现两个功能:针对于性能要求不高的场景,比如图形场景、教学场景和开发测试场景;针对对算力要求非常高的用户,这时候可以使用多vGPU功能把它分配给到每一个虚机提供给这些用户。
 
所以,现在的解决方案比之前更加灵活。这也是符合vGPU解决方案发展的趋势。一是尽量多的满足用户不同场景的需求;二是不断地增强GPU在数据中心的特性。因为越来越多的人工智能应用在数据中心做训练,然后上线推理。所以,大量GPU数据中心需要被管理起来,用虚拟化的手段弥补它在数据中心有一些特性的缺失。
 
NVIDIA GPU虚拟化解决方案发展历史
 
 
2013年发布第一个版本的vGPU解决方案后,有几个变化:
 
1.以前vGPU受限于硬件的限制,只能在有限的几款GPU上做GPU虚拟化。而现在可以在所有的Tesla数据中心GPU上做虚拟化。
 
2.GPU可以做虚拟化是随着NVIDIA的GPU性能越来越强劲实现的。用户对算力的不同需求,可以通过虚拟化手段灵活调配和管理。
 
3.生态的完善。最早的vGPU解决方案是和服务器虚拟化厂商在一起联合推出的。2013年NVIDIA只支持Citrix服务器虚拟化XenServer。2015年支持包括VMware等三家虚拟化平台。现在已经支持了共计7家虚拟化平台。
 
4.版本不断发展过程中加入了很多数据中心的特性。vGPU 4.0加入监控功能,用户可以通过监控管理功能从数据中心角度看到、GPU、vGPU、vGPU里应用程序的使用情况。
 
5.X的版本是具有里程碑意义的版本。这个版本里加入了计算功能,切割出来的vGPU既可以做图形又可以做计算。这个vGPU是通用GPU,可以适应更多的场景。同时,5.X的版本也放开了GPU的限制,用户只要购买放在数据中心中的Tesla GPU就可以使用vGPU。
 
6.vGPU 6.0开始对国内的厂商进行了大范围的支持。这些厂商的服务器虚拟化平台经过和NVIDIA工程师团队进行对接,共同发布支持他们虚拟化平台的vGPU解决方案,这些vGPU解决方案在性能、功能上和国际厂商保持一致。在6.X的时候,支持了当时市面上性能最强的采用NVIDIA Volta 架构的NVIDIA Tesla V100。
 
vGPU 7.X特性
 
 
NVIDIA把7.0和7.1统称为7.X,刚刚发布的vGPU 7.1具有以下几点特性:
 
1.多GPU支持。算力要求高的用户需要多块GPU。通过虚拟化的方式将多个物理GPU给到虚拟机,需要高算力就给高算力,需要低算力就低算力。比如在高校,学生需要低算力的GPU做教学实践和实训。老师高算力的GPU做科研。虚拟化可以合二为一,灵活分配。
 
2.vMotion动态迁移的实现。有一些不太适合通过硬件的形式实现的功能,可以通过使软件实现。比如数据中心的热迁移,现在已经可以支持VMware和Citrix的服务器虚拟化平台在数据中心中挂上vGPU虚拟机,在数据中心进行业务不中断的迁移。数据中心的用户可以把大量的GPU业务放到虚拟化平台上,在GPU资源池里进行实现。
 
3.图形虚拟化已经相对成熟,现在需要把虚拟化上大量的计算特性加到vGPU里。NVIDIA的目标是,让vGPU的特性和物理GPU特性完全一模一样,这样可以方便传统的物理GPU用户通过虚拟GPU解决方案平滑、无缝地迁移到数据中心。在物理GPU上,NVIDIA之前发布了整机解决方案DGX-1,DGX-1可以配合NVIDIA GPU Cloud (NGC)把NVIDIA优化好的人工智能神经网络框架下载到DGX-1这种一机8卡或一机16卡的环境里做训练。现在同样可以把NGC配合NVIDIA vGPU软件去用,把NGC上优化好的Docker镜像直接下载到vGPU环境里,进行推理和训练。所以,传统物理环境里的特性都会被移植到虚拟化的环境里,经过验证以确保性能和兼容性。
 
4.支持Tesla T4全新基于图灵架构GPU。它有Tensor Core做人工智能加速,RT Core做实时光线追踪加速,有CUDA Core做图形和计算。
 
以上是vGPU 7.X版本的更新。而随着功能的更新,自然而然就会带来场景上的拓展,那么官方建议有哪些拓展的场景?
 
1.Windows 10。2020年1月,微软将正式停止对Win 7的支持,越来越多用户会迁移到Win10,所以也将会有越来越多虚拟桌面用户迁移到Windows 10。Window 10对GPU的要求比较高,在虚拟桌面场景里,有GPU和没有GPU用户的体验是完全不一样的——如果有GPU,用户的体验会大大增强,可以帮助客户的最终用户接受桌面虚拟化的改造和迁移,能帮助客户更好地推广桌面虚拟化,更好地进行的桌面、终端、数据的管理。通过GPU虚拟化,在虚拟桌面服务器上插上一块GPU进行切割,切割完了之后给它一个vGPU,当虚拟桌面上有了vGPU以后,性能就会有所改善,用户体验就会变得更好,会接近于物理机的体验。
 
2.5.0版本时,GPU就支持做计算。一些对GPU的算力要求非常高的离线渲染的场景可以用GPU来做。因此,支持多GPU分配的7.X的版本,可以提升渲染的效率。
 
3.在AI场景里,深度学习推理都会用GPU来实现。
 
各行各业,如能源、政府、制造业等都可以在不同的场景里使用vGPU虚拟化解决方案。借助数据中心特性的支持,不同时段用户可以做不同的事情,可以通过一整套虚拟平台最大化利用技术架构。
 
要想实现这个功能,有几点要素。
 
1.需要知道哪些用户的资源是可以被释放出来的。
 
2.需要监控整个GPU资源平台、资源池了解整个GPU资源池的状况,需要对这些GPU生命周期有统一的管理。
 
3.做这件事的时候,需要让用户是无感知的,比如某用户在一台服务器上运行应用,现在一个大算力的作业需要征收他的这台服务器。这时候就必须在不影响用户业务和工作情况下迁移到其他系统上。
 
张洁展示了几个演示:
 
1.借助VMware vROps可以看到传统GPU资源使用情况。 IT管理人员可以迅速进行决策,什么时候需要加资源,什么时候需要把资源释放出来。
 
2.典型的图形场景:用户借助vGPU做图形加速。NVIDIA和虚拟化厂商通力合作,可以让这些用户使用这些技术。
   
3.设计用户用专业的设计软件做设计,需要借助仿真软件来模拟、分析该设计是否合理。演示中将零部件划成非常密集的网格,通过仿真软件的求解去分析零部件设计的是否合理这需要大量算力。比如到了晚上,有个普通用户正在运行着,而要做仿真求解时可以把普通用户迁移到别的服务器上,把HPC(做仿真求解的虚拟机)启动起来做求解。
 

 

赞 0个人觉得赞
logo

北京东方金信科技有限公司

规模:200-500人

网站: http://www.seaboxdata.com/

北京东方金信科技有限公司(后简称东方金信)成立于2013年2月,是一家专注于大数据平台和大数据解决方案的国内领先企业,拥有ISO9001和CMMI3认证,是首批...

粉丝0

关联信息

关于我们 | 全生命周期管理 | 服务的客户 | 版权说明 | 联系我们

公司名称:北京金誉在线伙伴文化传播有限公司    备案号:京ICP备 15026202号-1

意见
反馈
返回
顶部