
各人东说念主工智能算力芯片龙头英伟达周二告示,推出专为长高下文职责负载设想的专用 GPU Rubin CPX,用于翻倍擢升现时 AI 推理运算的职责成果,相称是编程、视频生成等需要超长高下文窗口的应用。
英伟达 CEO 黄仁勋示意,CPX 是首款专为需要一次性贬责多量常识(数百万级别 tokens),并进行东说念主工智能推理的模子而构建的芯片。
需要阐明的是,Rubin 即是英伟达将在来岁发售的下一代顶级算力芯片,是以基于 Rubin 的 CPX 瞻望也要到 2026 年底出货。下一代英伟达旗舰 AI 做事器的全称叫作念 NVIDIA Vera Rubin NVL144 CPX ——集成 36 个 Vera CPU、144 块 Rubin GPU 和 144 块 Rubin CPX GPU。

(NVIDIA Vera Rubin NVL144 CPX 机架与托盘,开首:公司博客)
英伟达闪现,搭载 Rubin CPX 的 Rubin 机架在贬责大高下文窗口时的性能,能比现时旗舰机架 GB300 NVL72 越过最多 6.5 倍。

据悉,下一代旗舰机架将提供 8exaFLOPs 的 NVFP4 算力,比 GB300 NVL72 越过 7.5 倍。同期单个机架就能提供 100TB 的高速内存和 1.7PB/s 的内存带宽。
闲聊少说,英伟达之是以要在 Rubin GPU 边上再配一块 Rubin CPX GPU,当然是为了显耀擢升数据中心的算力成果——用户购买英伟达的芯片将能赚到更多的钱。英伟达示意,部署价值 1 亿好意思元的新芯片,将能为客户带来 50 亿好意思元的收入。
为何需要不同的 GPU?
行为行业始创之举,英伟达的新品在硬件层面上分拆了东说念主工智能推理的计较负载。
英伟达先容称,推理进程包括两个人大不同的阶段:高下文阶段与生成阶段,两者对基础按次的条款骨子上统统不同。

高下文阶段属于计较受限(compute-bound),需要高朦拢量的贬责才智来摄取并分析多量输入数据,从而生成首个输出 token。相背,生成阶段则属于内存带宽受限(memory bandwidth-bound),依赖高速的内存传输和高带宽互联(如 NVLink),以看护逐一 token 的输出性能。
现时顶级的 GPU 王人是为了内存和汇注律例的生成阶段设想,配备不菲的 HBM 内存,然则在解码阶段并不需要这些内存。因此,通过分辨式贬责这两个阶段,并针对性地优化计较与内存资源,将显耀擢升算力的行使率。
据悉,Rubin CPX 专诚针对"数百万 tokens "级别的长高下文性能进行优化,具备 30petaFLOPs 的 NVFP4 算力、128GB GDDR7 内存。
英伟达忖度,约莫有 20% 的 AI 应用会"坐等"首个 token 出现。举例解码 10 万行代码可能需要 5-10 分钟。而多帧、多秒的视频,预贬责和逐帧镶嵌会赶快增多延长,这亦然为什么现时的视频大模子一样仅用于制作短片。
英伟达计算以两种体式提供 Rubin CPX,一种是与 Vera Rubin 装在吞并个托盘上。关于仍是下单 NVL144 的用户,英伟达也会单独出售一统统这个词机架的 CPX 芯片,数目偶合匹配 Rubin 机架。
欧洲杯体育
