热点观察

记者观察丨聚焦GTC中国线上大会上的创新与发展

12月15日-19日,由NVIDIA举办的GTC中国线上大会如期而至。在随后进行的线上媒体沟通会上,NVIDIA高管们进一步解读了在GPU架构创新、数据中心、网络计算、图形计算和渲染、嵌入式系统和自主机器平台上的最新发展情况。

  2020年12月15日-19日,由NVIDIA举办的GTC中国线上大会如期而至。在本次会议的主题演讲环节,NVIDIA研究院负责人Bill Dally带来了NVIDIA在图形计算、高性能计算、医疗、边缘计算、自主机器等领域的最新前沿创新成果,并分享了AI推理、硅光子学和GPU集群加速等领域的研究进展。在随后进行的线上媒体沟通会上,NVIDIA高管们进一步解读了在GPU架构创新、数据中心、网络计算、图形计算和渲染、嵌入式系统和自主机器平台上的最新发展情况。

  “黄氏定律”驱动GPU架构不断创新

  在Bill Dally 的主题演讲中,“黄氏定律 Huang's Law”被多次提及,NVIDIA区中国工程和解决方案高级总监赖俊杰介绍作为GPU的发明者和全球图形运算行业领袖,NVIDIA从推出第一代GPU架构开始,就在不断创新迭代,使GPU架构更加符合不同环境下的图形和可视化运算要求。

  例如最近发布的A100,在流式多处理器(SM)架构上,新一代的A100最高可以提供39 TFLOPS的FP32算力,做到了计算精度和速度的平衡。由于目前FP32(单精度浮点)主要用于图形运算或者物理模拟,对于运算结果的精度要求并不高,例如在研发设计方面,以CAD、CAM的研发设计仿真精度权重并不是首位,FP32完全可以满足需求。因此,NVIDIA针对新一代的流式多处理器架构进行优化,使其单精度浮点达到上一代Turing架构的2倍。

  其次,是A100的“结构化稀疏”,简而言之就是通过适当的方法减少较大网络中的冗余成分,以降低网络对计算量和存储空间的需求。通过权重分配模式,NVIDIA的张量核 (Tensor Core) 结构采用4x4数据结构,根据实测神经网络计算效果能够获得1.5倍端到端的性能提升。

  最后,在数据传输方面,NVIDIA通过NVLink和NVSwitch提供了GPU之间的高速互联,NVIDIA的DGX A100服务器里面包含8块A100 GPU,通过6个NVSwitch芯片完成高速的互联,从而可以为用户搭建超大规模的数据中心解决方案或者参考架构。

  覆盖全产品组合的数据中心平台

  作为企业数字化应用的基础设施,NVIDIA GPU计算专家团队亚太区总监李曦鹏介绍目前NVIDIA的产品除了GPU、NVSwitch以及DPU、Mellanox Switch等网络产品外,在服务器和云端,NVIDIA还提供了:

  各类加速库:GPU和网络加速库,如加速计算CUDA-X、网络存储安全DOCA和MAGNUM IO;

  开发软件套件:用于机器学习和数据分析的RAPIDS、XGBoost以及AI训练和预测的各种主流框架TensorFlow、PYTORCH、MXNet等。此外,还包括广泛被业界采用的预测框架TensorRT、高性能计算HPC SDK等。

  这其中,NVIDIA TensorRT是一款Inference加速工具。在李曦鹏看来,NVIDIA每一个框架,实际上都通过Training/Inference技术在应用层面进行完善、推理和训练产品所需要用到的各种功能,并且在NVIDIA内部也有完整的应用,推动应用技术产品的迭代,从而做到下层技术为上层应用服务,面向客户的实际应用需求开发产品,而非闭门造车。

  诠释未来的网络架构

  我们知道NVIDIA正式推出了第七代网络产品Mellanox NDR 400G InfiniBand。NVIDIA亚太区网络市场开发高级总监宋庆春表示作为世界上第一款400Gb/s的端到端网络解决方案,Mellanox NDR 400G InfiniBand的性能翻倍,达到了400Gbps,可为AI开发者和科研人员提供最快的网络互连性能。

  其中,宋庆春强调最为瞩目的是NDR实现了网络通信中最难的AllReduce和All2All集合通信硬件卸载。宋庆春介绍在通信领域,AllReduce、All2All可谓是最让人头疼的两个模型。特别是AllReduce,如果以传统的网络思维方式非常难解决。NDR产品通过网络和计算的结合,不但解决了AllReduce产品通信造成的拥塞问题,而且把其导致通信瓶颈的问题彻底消除了。 Mellanox 400G InfiniBand 产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍,同时增加了新的 NVIDIA 网络计算引擎,实现了额外的加速。

  此外,宋庆春还介绍了NVIDIA DPU。作为集整个数据中心功能于单芯片的处理器,NVIDIA DPU和CPU、GPU一起构成数据中心里面的三个非常关键计算单元。用户利用DPU的特性可以把计算、存储、安全、网络等功能集于一身,同时也实现了安全和计算单元完全的分离。

  图形渲染迎来跨越式发展

  在图形渲染方面,NVIDIA一直为用户提供非凡的图形和计算性能,为专业化的工作流程注入人工智能、虚拟现实和照片级写实的画质。NVIDIA中国区工程和解决方案高级总监李浩南介绍从Turing架构首次推出RTX(实时光线追踪)以来,NVIDIA一直致力于帮助用户提升图形渲染效果并基于RTX进行场景创新和应用迭代。他介绍RTX主要包含2大特征:

  1、NVIDIA通过分离独立的单元来专门处理光线追踪需要的光线投射计算,让它不再占用显卡本身核心算力。

  2、在“去噪”方面,NVIDIA利用独立的Tensor Core单元实现在很低的采样率下进行实时降噪处理,通过深度学习进行降噪所获得的质量也比传统光栅化更加优化。这种设计可以在保证RTX GPU在原有算力的前提下,极大的提升光线追踪的渲染能力,能够实现实时光线追踪的渲染。

  在新推出的Ampere架构中,这两大特点都得到了显著的增强。李浩南介绍这主要归功于RTXGI和DLSS技术。在李浩南看来,这两个技术也被业界认为是实时渲染图形里面迄今为止最好的技术方案。这其中,RTXGI被称之为“动态全局光照”,可以让光线追踪的性能开销大幅度降低,而且不会有噪点,也能很好的解决“漏光”的问题。需要注意的是,RTXGI全局光照技术可以很好地兼顾性能和画质。

  而DLSS被称之为深度学习超采样技术,在NVIDIA最新2.1版本中,它的画面重构能力从之前的4倍可以提升到9倍,它的原理是在超级计算机上用数以万计的高品质渲染图片进行训练得到网络模型,然后把这个网络模型用在三维应用和游戏渲染中,可以在较低的分辨率上面进行画面的重构,这样就使GPU渲染的桢率得到大幅度的提升。

  为数百万开发者打造自主机器平台

  在智能应用高速发展的今天,无论是酒店的智能机器人还是自动送货无人机,智能边缘解决方案需要高级推理能力来解决复杂问题。但是,这些设备无法依赖网络连接将信息传回数据中心,。它们需要在低功耗的小型板载系统中实现卓越推理性能。NVIDIA亚太区开发者发展总监李铭介绍NVIDIA Jetson平台提供了这种性能。

  李铭表示从15年3月份推出第一代 Jetson以来,平台已经吸引了全球70万开发者,这一数字每天还在增长中。通过从0.5TOPS至30TOPS的广泛覆盖,Jetson能满足不同阶段的产品化落地需求。例如Jetson Nano 模块是一款低成本的 AI 计算机,具备超高的性能和能效,可以运行现代 AI 工作负载,并行运行多个神经网络,以及同时处理来自多个高清传感器的数据,这使其成为向嵌入式产品中添加高级 AI 的理想的入门级选项。

  值得一提的是,NVIDIA还为开发者搭建Jetson开发者社区,作为一个活跃的嵌入式AI开发者平台,NVIDIA全球的工程师为 Jeson开发者社区提供7×24小时用户支持,帮助用户在Jetson上实现自己的的创意和想法---无论是做一个边缘盒子、自主机器人、还是类似于台式机、一体机设备,都可以快速化灵感为现实。