英特尔推出新款DGXA100迎合AMD

2021-12-17 10:50:27   编辑:杨荣雨
导读 昨天在 Nvidia 的 GPU 技术大会上,每个人都发现了 CEO Jensen Huang 正在烹饪的东西——Volta 驱动的 DGX-2 深度学习系统的安

昨天在 Nvidia 的 GPU 技术大会上,每个人都发现了 CEO Jensen Huang 正在烹饪的东西——Volta 驱动的 DGX-2 深度学习系统的安培驱动的继任者。

周三,我们将 Huang 厨房中的神秘硬件描述为除了 Tesla v100 GPU 的新继任者之外,还可能“装了几颗至强 CPU”。Egg 就在我们面前——新系统配备了一对 AMD Epyc 7742 64 核、128 线程 CPU,以及 1TiB 的 RAM,一对 RAID1 中的 1.9TiB NVMe SSD 用于引导驱动器,最高可达RAID 0 中的四个 3.8TiB PCIe4.0 NVMe 驱动器作为辅助存储。

再见英特尔,你好 AMD

从技术上讲,英伟达在其旗舰机器学习节点中使用 AMD 的 CPU 应该不足为奇——Epyc Rome一直在推动英特尔的至强服务器 CPU 产品线的上下竞争。从技术方面来看,Epyc 7742 对 PCIe 4.0 的支持可能比其高 CPU 速度和大量内核/线程数更重要。

基于 GPU 的机器学习经常遇到存储瓶颈,而不是 CPU。DGX A100 使用的 M.2 和 U.2 接口均使用 4 个 PCIe 通道,这意味着从 PCI Express 3.0 到 PCI Express 4.0 的转变意味着每个固态硬盘的可用存储传输带宽从 32Gbps 增加到 64Gbps。

改变 CPU 供应商的决定背后可能也隐藏着一些政治因素。在利润率相对较低的消费图形市场,AMD 可能是英伟达最大的竞争对手,但英特尔正在数据中心市场上奋力进军。目前,英特尔在独立 GPU 中的产品大多是蒸汽——但我们知道 Chipzilla 有更大、更宏伟的计划,因为它将重点从垂死的消费 CPU 市场转移到所有数据中心。

英特尔 DG1 本身——这是我们见过的唯一真正的硬件——已经泄露了基准测试 ,使其与 Ryzen 7 4800U 的集成 Vega GPU 竞争。但英伟达可能更关心 Xe HP 4-tile GPU,其 2048 个 EU(执行单元)可能提供高达 36TFLOPS——这至少与为今天发布的 DGX 提供动力的英伟达 A100 GPU 处于同一水平。

DGX、HGX、SuperPOD 和 Jetson

该DGX A100是今天的产品发布,它是一个独立的系统,具有8分A100的GPU,与40GiB GPU内存每人的明星。能源部阿贡国家实验室已经在使用一台 DGX A100 进行 研究。该系统的 9 个 200Gbps Mellanox 互连使多个 DGX A100 集群成为可能,但那些预算无法支持 大量200,000 美元 GPU 节点的用户可以通过将 A100 GPU 划分为最多 56 个实例来解决这个问题。

对于那些谁 做有预算来购买和DGX A100节点的集群不减当年,他们也可以在HGX-超大规模数据中心加速器格式。英伟达表示,由早期 DGX-1 节点和 600 个独立 CPU 组成的“典型云集群”可以被五个 DGX A100 单元取代,能够处理两种工作负载。这会将硬件从 25 个机架缩减为 1 个,功率预算从 630kW 缩减到 28kW,成本从 1100 万美元缩减到 100 万美元。

如果 HGX 听起来还不够大,英伟达也发布了 SuperPOD 的参考架构——与 Plume 无关。Nvidia 的 A100 SuperPOD 通过 170 个 Infiniband 交换机连接 140 个 DGX A100 节点和 4PB 闪存,并提供 700 petaflops 的 AI 性能。英伟达在其自己的 SaturnV 超级计算机中添加了四个 SuperPOD,至少根据英伟达的说法,这使 SaturnV 成为世界上最快的人工智能超级计算机。

最后,如果您不喜欢数据中心,您可以在边缘计算中使用 A100,使用 Jetson EGX A100。还有 EGX Jetson Xavier NX。对于那些不熟悉的人来说,Nvidia 的Jetson单板平台可以被认为是类固醇上的树莓派——它们可以部署在物联网场景中,但为小尺寸带来了强大的处理能力,可以加固并嵌入边缘设备,例如机器人、医疗保健和无人机。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章