
整理 | 燕珊
据 The Information 最新报说念,英伟达下一代 Blackwell 芯片在高密度工作器机架中出现严重过热问题,导致想象变更和客户方面的部署蔓延。这让 Google、Meta 和微软等主要客户对能否如期部署 Blackwell 产生担忧。
过热问题或株连委用盘算推算
英伟达早在本年 3 月发布了 Blackwell 系列居品,原盘算推算是 2024 年第二季度发货,但之前仍是因为想象颓势而推迟。
据报说念,Blackwell GPU 在高密度工作器机架中面对严重的过热问题。这些高密度工作器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的想象带来了散热辛勤,不仅舍弃了 GPU 性能,还可能损坏硬件组件。
为解决这一问题,英伟达不得未几次调遣机架想象,并对冷却系统进行工程改动。据悉,英伟达已指示供应商实施多项改进步调。
英伟达对此回话称,散热问题和想象变更是本领设立中的泛泛经由,并重申正在与云工作商和供应商配合,确保最终居品恰当性能和可靠性条目。
戴尔告示,基于英伟达 GB200 NVL72 架构且选定液冷本领的工作器机架已发货
在恭候 Blackwell 问题解决的同期,一些客户已启动琢磨替代决议。据报说念,部分客户比如微软,已盘算推算通过更换部分组件来定制 Blackwell 机架,以妥当其数据中心需求。
一位云盘算推算公司高管露出,他们正在加多现时一代 Hopper 芯片的采购量。分析觉得,这可能在短期内普及英伟达的收入,尤其是 Hopper 芯片的利润率较高。可是, 这种转向也可能放松将来对 Blackwell 偏激 NVLink 工作器的需求,对英伟达的永久增长组成潜在挟制。
在散热问题之前,因为封装想象的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片选定台积电的 CoWoS-L 封装本领,通过局部硅互连(LSI)桥完结高达 10 TB/s 的数据传输速率。可是,GPU 芯片、LSI 桥和主板之间的热扩展特质不匹配,曾导致芯片变形和系统故障。
为解决这一问题,英伟达调遣了芯片结构,并从头想象模具,最终在 10 月底完成了修正。
Tom’s Hardware 指出, 尽管此类调遣在大限制本领奉行中很常见,但如故可能会进一步推迟 Blackwell 的预期发货时分。
Blackwell 需求惊东说念主,
性能发扬屡立异高
Blackwell 芯片自觉布以来,市集需乞降温柔度一直很高。黄仁勋在此前采访中曾屡次暗示,市集对 Blackwell 芯片的需求强到“落拓(insane)”。
在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现发轫的性能。
上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 老师职责负载方面的成绩——在 MLPerf Training 4.1 的测试中,老师 Llama 270B 模子的速率较前代 Hopper GPU 快了达 2.2 倍。此外,收货于 HBM3e 高带宽内存的诈欺,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的盘算推算任务。
与此同期,Hopper 平台也在握续优化。在本轮 MLPerf 老师测试中,Hopper 的每 GPU GPT-3 175B 老师性能比初次引入该基准时提高了 1.3 倍。
分析师无数觉得,AI 诈欺的发展仍处于早期阶段,Blackwell 的推出将继续鼓舞英伟达功绩增长。摩根士丹利瞻望,Blackwell 新址品线将在 2025 年第一季度普及公司收入,瞻望销售额将在 50 亿至 60 亿好意思元之间。
跟着 Blackwell 瞻望于 2025 年 1 月底启动大限制委用,其本体发扬能否餍足市集预期,将成为接下来不雅察的要点。
AMD 推出新款 AI 芯片
挑战 Blackwell
在英伟达辛劳解决本领问题的同期,AMD 也在加快进军 AI 芯片市集。上个月,AMD 告示推出全新 AI 芯片 Instinct MI325X,况且盘算推算在 2024 年底前启动坐蓐。AMD 的这一手脚被觉得是对英伟达在 GPU 市集主导地位的挑战。
现在,英伟达的 GPU 在 AI 芯片市集占据 90% 以上份额,而 AMD 一直稳居第二。这次发布的 MI325X 是昨年推出的 MI300X 的继任者,AMD 盘算推算每年发布一款新芯片,以更快反馈市集需求并镌汰与英伟达的差距。
AMD 瞻望,到 2028 年,AI 芯片市集限制将达到 5000 亿好意思元。AMD CEO 苏姿丰暗示,“AI 需求正在马上超出预期,大家范围内的投资仍在加快。”在性能方面,苏姿丰暗示,MI325X 在处理 Meta 的 Llama 3.1 模子时推感性能比 Nvidia H200 跨越 40%。
固然 AMD 莫得告示新的客户名单,但公司此前已露出过 Meta、微软和 OpenAI 正在使用其 AI 芯片的音讯。AMD 也强调,其芯片在生成内容和预测类 AI 诈欺中具有上风,这收货于其先进的内存想象。
可是,英伟达的 CUDA 话语已成为 AI 设立的事实标准,其本领生态和市集上风仍然是 AMD 最大的竞争抨击。有分析指出,跟着 Meta、微软等云巨头对 AI 需求的握续增长,AMD 有机默契过价钱和性能的各异化政策,诱骗更多客户,尤其是在生成式 AI 模子推理等细分畛域。
参考畅达:
https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/
https://www.tomshardware.com/pc-components/gpus/nvidias-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers
https://blogs.nvidia.com/blog/mlperf-training-blackwell/
https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.htmlkaiyun.com
机架英伟达芯片Hopper微软发布于:北京市声明:该文不雅点仅代表作家本东说念主,搜狐号系信息发布平台,搜狐仅提供信息存储空间工作。