要点
- Nvidia 的 Blackwell GB200 服务器面临生产延迟。
- 强大的 72-GPU 机架由于过热需要重新设计。
- 由于需求量巨大,目前 Blackwell 芯片的等待名单为一年。
多次重新设计推迟了 Nvidia 交付其 Blackwell GPU 解决方案的时间表,这意味着一些客户现在必须等待一年多才能收到订单。
就在英伟达芯片供应商两个月后 台积电 必须修复 GPU 设计缺陷,The Information 已 报道 预计用于数据中心的 Blackwell 服务器过热,促使再次重新设计并进一步推迟生产。
Blackwell 服务器过热
与 Nvidia 的其他垂直领域(例如消费显卡市场)不同,Blackwell 处理器旨在用于大型数据中心和专用 AI 超级计算机。
因此,该公司主要并不是单独销售最强大的 AI 芯片,而是在预配置的服务器机架中销售,该服务器机架由 8-72 个带有内置内存的 GPU 组成,在最大的服务器中还包括并行 CPU 内核。
据 The Information 报道,过热问题影响了最大的 GB200 服务器,这是一个液冷数据中心平台,每个机架包含 36 个 Grace CPU 和 72 个 Blackwell GPU。
据报道,GB200 具有巨大的处理能力,每台消耗高达 120kW 的电力。 (作为比较,典型的台式计算机通常使用大约 200-300 瓦。)
对于每台成本约为 300 万美元的服务器来说,过热是一个严重的问题,可能会限制 GPU 性能并损坏内部组件。
虽然第一批 GB200 服务器最初定于本季度交付,但重新设计意味着它们现在要到 2025 年初才会交付。
大型科技客户将是第一批收到新产品的客户。然而,对人工智能芯片的巨大需求意味着其他人将不得不等待一年多。
Nvidia Blackwell 芯片已售罄
最近什么时候 质疑 摩根士丹利分析师表示,Nvidia 管理层表示,未来 12 个月 Blackwell GPU 的供应已经售空。
由于几乎垄断了用于人工智能训练的最强大 GPU,英伟达一直在努力满足对其人工智能加速器的需求。
基于 Hopper 架构的前几代芯片(包括 H100 和 H200)最初也面临类似的长达 11 个月的等待时间。然而,随着英伟达扩大产能,等待时间缩短至三个月左右。
谁将获得 Nvidia 人工智能芯片?
预售的 Blackwell 设备已被 Nvidia 的最大客户抢购一空,其中包括亚马逊、CoreWeave、谷歌、Meta、微软和甲骨文。与此同时,规模较小的公司已被排在最后。
微软预计 获得最大的拨款之一。在一个十月里 邮政 在X上 ,该公司透露,它已经在 12 月份预计出货量增加之前建造了第一台配备 Blackwell GB200 芯片的云服务器。
11 月 12 日星期二,在 Nvidia 在日本举行的人工智能峰会上,首席执行官黄仁勋 (Jensen Huang) 宣布 软银正在使用 Blackwell 平台打造日本最强大的人工智能超级计算机。
作为人工智能推动的一部分,这家日本投资银行将成为第一家接受 Nvidia 投资的银行 DGX B200 ,比 GB200 更小的服务器,具有 8 个 GPU。
这篇文章有帮助吗?