黄仁勋最新2万字演讲实录：机器人时代已经到来(7)

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-06-05 21:14:10 新经济学家

当人工智能数据通过合成方式生成，并结合强化学习技术时，数据生成的速率将得到显著提升。随着数据生成的增长，对计算能力的需求也将相应增加。我们即将迈入一个新时代，在这个时代中，人工智能将能够学习物理定律，理解并基于物理世界的数据进行决策和行动。因此，我们预计人工智能模型将继续扩大，对GPU性能的要求也将越来越高。

为满足这一需求，Blackwell应运而生。这款GPU专为支持新一代人工智能设计，拥有几项关键技术。这种芯片尺寸之大在业界首屈一指。我们采用了两片尽可能大的芯片，通过每秒10太字节的高速链接，结合世界上最先进的SerDes（高性能接口或连接技术）将它们紧密连接在一起。进一步地，我们将两片这样的芯片放置在一个计算机节点上，并通过Grace CPU进行高效协调。

Grace CPU的用途广泛，不仅适用于训练场景，还在推理和生成过程中发挥关键作用，如快速检查点和重启。此外，它还能存储上下文，让人工智能系统拥有记忆，并能理解用户对话的上下文，这对于增强交互的连续性和流畅性至关重要。

我们推出的第二代Transformer引擎进一步提升了人工智能的计算效率。这款引擎能够根据计算层的精度和范围需求，动态调整至较低的精度，从而在保持性能的同时降低能耗。同时，Blackwell GPU还具备安全人工智能功能，确保用户能够要求服务提供商保护其免受盗窃或篡改。

在GPU的互联方面，我们采用了第五代MV Link技术，它允许我们轻松连接多个GPU。此外，Blackwell GPU还配备了第一代可靠性和可用性引擎（Ras系统），这一创新技术能够测试芯片上的每一个晶体管、触发器、内存以及片外内存，确保我们在现场就能准确判断特定芯片是否达到了平均故障间隔时间（MTBF）的标准。

对于大型超级计算机来说，可靠性尤为关键。拥有10,000个GPU的超级计算机的平均故障间隔时间可能以小时为单位，但当GPU数量增加至100,000个时，平均故障间隔时间将缩短至以分钟为单位。因此，为了确保超级计算机能够长时间稳定运行，以训练那些可能需要数个月时间的复杂模型，我们必须通过技术创新来提高可靠性。而可靠性的提升不仅能够增加系统的正常运行时间，还能有效降低成本。

最后，我们还在Blackwell GPU中集成了先进的解压缩引擎。在数据处理方面，解压缩速度至关重要。通过集成这一引擎，我们可以从存储中拉取数据的速度比现有技术快20倍，从而极大地提升了数据处理效率。

Blackwell GPU的上述功能特性使其成为一款令人瞩目的产品。在之前的GTC大会上，我曾向大家展示了处于原型状态的Blackwell。而现在，我们很高兴地宣布，这款产品已经投入生产。

黄仁勋最新2万字演讲实录：机器人时代已经到来

各位，这就是Blackwell，使用了令人难以置信的技术。这是我们的杰作，是当今世界上最复杂、性能最高的计算机。其中，我们特别要提到的是Grace CPU，它承载了巨大的计算能力。请看，这两个Blackwell芯片，它们紧密相连。你注意到了吗？这就是世界上最大的芯片，而我们使用每秒高达A10TB的链接将两片这样的芯片融为一体。

那么，Blackwell究竟是什么呢？它的性能之强大，简直令人难以置信。请仔细观察这些数据。在短短八年内，我们的计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这速度，几乎超越了摩尔定律在最佳时期的增长。

Blackwell计算能力的增长简直惊人。而更值得一提的是，每当我们的计算能力提高时，成本却在不断下降。让我给你们展示一下。我们通过提升计算能力，用于训练GPT-4模型（2万亿参数和8万亿Token）的能量下降了350倍。

想象一下，如果使用Pascal进行同样的训练，它将消耗高达1000吉瓦时的能量。这意味着需要一个吉瓦数据中心来支持，但世界上并不存在这样的数据中心。即便存在，它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心，那么训练时间将长达一年。

显然，没有人愿意或能够创造这样的数据中心。这就是为什么八年前，像ChatGPT这样的大语言模型对我们来说还是遥不可及的梦想。但如今，我们通过提升性能并降低能耗实现了这一目标。

我们利用Blackwell将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时，这一成就无疑是令人震惊的突破。想象一下，使用1000个GPU，它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU，更是只需短短10天左右的时间就能完成同等任务。八年间取得的这些进步，简直令人难以置信。

黄仁勋最新2万字演讲实录：机器人时代已经到来

Blackwell不仅适用于推理，其在Token生成性能上的提升更是令人瞩目。在Pascal时代，每个Token消耗的能量高达17,000焦耳，这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token，几乎需要两个200瓦特的灯泡持续运行两天。考虑到生成一个单词大约需要3个Token，这确实是一个巨大的能量消耗。

然而，现在的情况已经截然不同。Blackwell使得生成每个Token只需消耗0.4焦耳的能量，以惊人的速度和极低的能耗进行Token生成。这无疑是一个巨大的飞跃。但即使如此，我们仍不满足。为了更大的突破，我们必须建造更强大的机器。

这就是我们的DGX系统，Blackwell芯片将被嵌入其中。这款系统采用空气冷却技术，内部配备了8个这样的GPU。看看这些GPU上的散热片，它们的尺寸之大令人惊叹。整个系统功耗约为15千瓦，完全通过空气冷却实现。这个版本兼容X86，并已应用于我们已发货的服务器中。

然而，如果你更倾向于液体冷却技术，我们还有一个全新的系统——MGX。它基于这款主板设计，我们称之为“模块化”系统。MGX系统的核心在于两块Blackwell芯片，每个节点都集成了四个Blackwell芯片。它采用了液体冷却技术，确保了高效稳定的运行。

整个系统中，这样的节点共有九个，共计72个GPU，构成了一个庞大的计算集群。这些GPU通过全新的MV链接技术紧密相连，形成了一个无缝的计算网络。MV链接交换机堪称技术奇迹。它是目前世界上最先进的交换机，数据传输速率令人咋舌。这些交换机使得每个Blackwell芯片高效连接，形成了一个巨大的72GPU集群。

黄仁勋最新2万字演讲实录：机器人时代已经到来

这一集群的优势何在？首先，在GPU域中，它现在表现得就像一个单一的、超大规模的GPU。这个“超级GPU”拥有72个GPU的核心能力，相较于上一代的8个GPU，性能提升了9倍。同时，带宽增加了18倍，AI FLOPS（每秒浮点运算次数）更是提升了45倍，而功率仅增加了10倍。也就是说，一个这样的系统能提供100千瓦的强劲动力，而上一代仅为10千瓦。

首页上一页...4 5 678 9 10 全文共 10 页下一页

关闭

黄仁勋最新2万字演讲实录：机器人时代已经到来(7)

相关新闻

今日热点

频道热点