联系我们

英伟达首席科学家Bill Dally解读“黄氏定律”:替代摩尔定律,定义AI时代?

2020-12-15

没错,英伟达GTC大会又来了,不过这次没有老黄,背景也不是他家的厨房。

本次GTC20中国线上大会由首席科学家BillDally首先发表主题演讲,回顾了NVIDIA这一年的成就和产品。

Bill Dally 先后获得弗吉尼亚理工大学电气工程学士学位、斯坦福大学电气工程硕士学位和加州理工大学计算机科学博士学位。他在斯坦福大学任教12年后,于2009年加入 NVIDIA 担任首席科学家。

同时他还是美国国家工程院院士,美国艺术与科学学院院士,IEEE ACM 院士,获得了2004年美国 IEEE计算机协会 Seymour Cray 计算机工程奖和2000年美国计算机协会 Maurice Wilkes 奖。

以下是他的主题演讲精选:

 

关于Ampere架构、A100和黄氏法则的一切

所有一切的基础都是硬件,但硬件本身是不可以解决难题的,需要借助软件来集成强大的计算应对复杂的问题。

2006年以来,研发人员一直在使用CUDA来充分利用GPU的强大功能,为了方便人们在CUDA上构建应用程序,英伟达还提供了一整套的开发库。例如,如果需要用到线性函数,可以使用cuBLAScuSPARSE等库。

NVIDIA A100,不仅是世界最大的7nm芯片,具有540亿个晶体管,相比上一代有了很多的创新。在第三代Tensor Cores中,增加了对于新数据类型TF32的支持,使用TF32进行训练,可以获得156 teraflops的性能。

最让Dally兴奋的是,Ampere破解了如何利用神经网络的稀疏性来获得更好的性能。如果需要缩减它的计算能力,MIG(多实例GPU)还可以将一个A100分解为7个独立的GPU,以便每个GPU都能运行各自的任务。

如果需要扩展Ampere来解决更大规模的问题,第三代的NVLinkNVSwitch是一个很好的选择,相较于上一代产品有两倍带宽的提升,GPU数据传输的带宽可以达到600GB/s

事实证明,大多数神经网络都是可以修剪的。Dally2015年的NeurIPS大会上发表了一篇论文,证明了可以对神经网络进行修剪,切断神经元之间70%90%的连接,这就意味着将这些神经元的权重设置为0,并不会影响精度。

这种压缩的效果是立竿见影的,既然权重设置为0,就无需存储,Ampere通过结构化稀疏性(允许4个权重中的两个为0)来优化了这个问题。对于矩阵乘法,一旦将权重稀疏为2/4模式,就可以实现双倍的性能。

与此同时,Ampere技术的真正优势在于,它不仅在深度学习方面表现出色,在高性能计算方面也有不俗的表现。

11月举行的超算TOP500榜单中,采用NVIDIA技术的超算在前10名中占了8位,Selene超算在TOP500Green500中都排名第五。

下面这张图表展示了从2012年的Kepler,一直到今年5月份的Ampere A100,单芯片推理性能提高了317倍。

这就是「黄氏法则」——推理性能每年翻一倍。「摩尔定律」之后,就是它来提升计算性能。此表上只有3代制程技术,从Kepler架构28nm,到16nm,再到最近Ampere7nm。这主要得益于架构的改进,而Tensor core的改进,更优化的电路设计与架构,制程技术等发挥的作用不大。

性能方面,Ampere的速度要快2.5倍。相比Google自家的TPU v3和华为,尽管领域不同,但都被Ampere打败。

在数据中心的推理测试中,差距还是拉开了。

与之前的AI推理方案Turing T4相比,在所有基准测试中,A100的速度都提高了68倍,这里出现的竞争对手只有IntelXilinxAmpere直接碾压了它们。

另一张图展示的是边缘推理基准测试,适用于边缘服务器和嵌入式设备。此次A100T4,以及使用Tegra芯片的Jetson AGX Xavier的性能数字,如图所示,英伟达再次横扫了。

 

RTXDI到光线追踪,英伟达改变的不只是游戏

NVIDIA的直接照明技术,也即「RTXDI」。

传统图形在直接照明下的显示,灯光在相邻表面上投射光线不会投射出阴影,但通过RTXDI技术,每个光源都会将其光线投射到相邻表面上。

投射阴影逼真的奥秘就在光线和物体表面之间,可以使用这种技术支持多达数百万个光线选择一种名为「容器重要性采样」的技术,称之为ReSTIR,这项技术在SIGGRAPH 2020中发布,并且现已在NVIDIA图形产品中使用,它可以产生直接照明的效果。

还有间接照明。

当光线反射到表面然后又反射回你的眼睛或相机,RTXDI会使得光线效果非常逼真。但是光线会多次甚至无限次地反射,为此,NVIDIA给出的解决方案是RTXGI

上图的下半部分几乎都是黑暗的,因为如果没有间接照明,你就看不到太多物体。这是以一个很好的多速率渲染的例子,因为间接光线不会以极快的速度变化。可以看到图片的上半部分,间接照明效果非常逼真,在这种情况下几乎所有的照明都是间接照明,因为只有一点点光线是从窗子照射进来。

另一项能够让我们以实时速率渲染更多内容的技术是NVIDIA DLSS或者深度学习超级采样(Deep Learning Super Sampling)。现在是DLSS 2.0版本,可以提供比1.0更高的性能。

整体流程如下图所示,首先以某个分辨率开始处理图像,将此图像输入到神经网络中,把它升级到4K

然后采用经过升级的图像,并将它与在更高分辨率下实际渲染的真实数据(16K)进行比较,其中的误差会进入其中一个DGX SuperPODs 训练神经网络的loss函数,经过对数据集的特定迭代,可以训练网络权重来以非常准确的方式生成升级后的图像。

NVIDIA一直在努力解决不稳定的问题。并通过这项技术获得了非常稳定的视频。

另一件很难做好的事情就是让网络泛化。NVIDIA通过训练神经网络让它在游戏的每个级别以及各个游戏中发挥作用。

下图左侧是原生4K,右侧是已经升级至4K1440图像,右上角显示帧率。

NVIDIA还在努力提高渲染性能以获得全动态画质,此外还希望与电影一样进行基于物理性质的路径追踪。

从相机中透射光线,能够通过一定数量的镜面反射和折射进行反射,如通过下图左上角的啤酒杯,当遇到这样的镜面反射时,将执行一些漫反射,在每次反射时,使用使用上文中提到的直接照明中的ReSTIR算法进行多光线采样,这将会提供极佳的直接照明。

另一项非常棒的技术是降噪。

虽然不能像电影那样,每个像素都发射1万条光线,对于图形,每个像素1-10条光线就够了,但这样形成的图形会出现大量噪点,接下来通过降噪和深度学习的降噪就可以清理图像,提升画质。

之后再经过两次反射,将停止其中一个RTXGI光探测器以获得非常精确的间接照明。

除了RTXGIRTXDI,还可以使用镜面反射和漫反射的方式实现这些反射。这将用到NVIDIA全新GPU中的RT Core,它大大加速了光线追踪,首次在实时图形中进行光线追踪成为可能。

 

图像的未来看AI,未来的人类生活也看AI

Dally还回顾了AI发展的历程,他说到:

「当前的AI革命其实就是由GPU创造的,以深度神经网络为例,有3个关键组成部分在发挥作用,算法,即深度神经网络本身,训练数据,以及运行所需的硬件」。

GPU成就了深度学习,也掌控着深度学习发展的进度。

如下表左侧显示,从AlexNet发展到ResNet短短几年时间里,对计算机性能的需求提高到了一个数量级以上。如右侧所示,自然语言处理网络的发展更快,从BERTGPT-3速度更快,训练时间对Peta级别的算力要求也越来越高。

人们可以构建的网络在很大程度上受到训练网络所能使用的GPU性能的限制。人们想要建立更大的模型,在更大的数据集上进行训练,但是很受限于在已有的GPU资源上,在可接受的时间内可以训练到的程度。

接下来,Dally还介绍了深度学习推理的工作流:

此外,Dally还带来了英伟达在一些行业领域内的应用。

NVIDIA在医疗领域的人工智能应用是 NVIDIA Clara,这是一套旨在通过GPU加速医疗健康发展的应用。

通过下图可以了解GPU如何从各个不同的时间维度加快医疗健康发展。

其中,Dally 还提到了DeepMind最新发布的「AlphaFold」,此方法将获取蛋白质的氨基酸序列,例如病毒的基因序列,并能够借助人工智能发现结构,且只需几分钟时间,速度大大提升了。

借助深度学习,NVIDIA构建了能够感知环境并与环境交互的机器人。正在开发的一项技术名为「黎曼运动策略」,本质上能够从数学角度简化这一复杂运动问题的表达,便于解决实际问题。在操控方面,除了对机器人抓取特定目标的训练外,还有对陌生目标的抓取训练。

在辅助驾驶方面,英伟达借助雷达和激光雷达等设备的辅助,使得驾驶员在各种情况下都可以对四周的情况了如指掌。

也可以检测各种障碍物,了解与物体之间的距离和碰撞时间,采用特定的神经网络来搜索自由行驶空间。

最后,Dally 还介绍了Legate,无需修改代码即可让Python程序无感运行在Jetson Nano上面,所需要做的就是将原本的import numpy as np 改为 import legate.numpy as np

Dally的主题演讲之后,五名NVIDIA高管将介绍公司在AI、数据科学和医疗领域的多项突破性技术如何在中国具体应用。该圆桌讨论将于北京时间1215日上午1110分开始。

以下是直播连接,感兴趣的小伙伴可以观看全程完整视频:https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-54310&sfdcid=CORPENTSO

 

(转载自新智元)

诚聘英才
友好链接
业务咨询及参观访问:0755-86576085    0755-86576086    地址:深圳市南山区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014-2020  粤ICP备10220126号