EP31. Vera Rubin AI network簡介

Jan 21, 2026

2026 CES 的重頭戲無疑是黃教主的 Keynote。雖然 CES 傳統上是消費電子的主場，但 NVIDIA 這次發布的 Vera Rubin 平台，其意義遠超過單純的晶片升級。不是單一晶片的算力提升，而是 NVIDIA 透過『極限協同設計 (Extreme Co-design)』，將六大關鍵晶片融合成了一台『單一 AI 超級電腦』。從 400G SerDes 的物理層突破，到大膽導入 CPO (共封裝光學) 解決銅纜極限 ，Rubin 平台正在重新定義 AI 基礎設施的遊戲規則。這一集，我們就來深入拆解這背後的技術佈局

六大關鍵晶片

NVIDIA 在 CES 推出的 Rubin 平台，核心理念是將六大關鍵晶片整合成「單一 AI 超級電腦（One AI Supercomputer）」，透過極限協同設計（Extreme Co-design）來突破摩爾定律的瓶頸。

Vera CPU：協作處理器，採用 88 個 Olympus 核心 (Arm 架構) 與 LPDDR5。
Rubin GPU：AI 運算核心，算力達 50 PFLOPS，搭載 HBM4 記憶體。
NVLink 6 Switch：400Gbps SerDes，機櫃互連晶片，頻寬 3,600 GB/s，支援 Single Hop 直連。
Spectrum-6 Switch：乙太網路交換晶片，總容量 102.4 Tb/s，採用 CPO (共封裝光學) 技術。
ConnectX-9：高速網卡 (SuperNIC)，200Gbps SerDes，單埠頻寬達 800 Gb/s。
BlueField-4 DPU：資料處理單元，整合 64 核 Grace CPU 與 CX-9 網卡功能。

Rubin 平台的關鍵在於「整合」。從 NVLink 6 的 400G SerDes，到 Spectrum-6 大膽導入 CPO ，顯示出 NVIDIA 試圖在物理層面上解決銅纜傳輸的極限，和光互連技術推進。

AI Supercluster (超級叢集)

基於 Vera Rubin 平台 的 AI Supercluster (超級叢集) 實體部署架構，採用典型的「運算—網路—運算」佈局：

兩側：運算單元 (Compute)

配置： 左右各標示為 “8x NVL 72”，即左右各 8 個 NVL72 機櫃，共 16 櫃。
規模： 總計包含 1,152 顆 Rubin GPU (= 16 Racks x 72 GPUs)。
意義： 每個 NVL72 機櫃內部是透過 NVLink 6 銅纜直連(Scale Up)的單一大核心；機櫃之間則需要透過網路層擴展。

中間：網路核心 (Scale out Network)

配置： Spectrum-6 CPO 交換器機櫃。
技術關鍵： 這裡明確標示了 CPO (Co-Packaged Optics)，證實 NVIDIA 在 Scale-out (水平擴展) 的乙太網路層，正式導入共封裝光學技術，用來連接兩側龐大的 NVL72 運算群，解決傳統可插拔光模組在這種高密度互連下的功耗與散熱瓶頸

Compute Tray

Vera Rubin Compute Tray 的設計延續了 NVL72 的高密度理念，但在運算與網路頻寬上進行了顯著升級。

運算密度：雙 Superchip 配置

配置： 單個 Tray 包含 2 組「Vera Rubin Superchip」模組。
總核心數 (Per Tray)： 2 顆 Vera CPU + 4 顆 Rubin GPU。
記憶體： 結合了 Rubin 的 HBM4 與 Vera 的 LPDDR5，形成統一記憶體架構。

Scale-Out 網路 (水平擴展)：1.6Tbps Per GPU

硬體： 搭載 8 顆 ConnectX-9 (CX-9) SuperNIC。
拓撲配比： 採用 2:1 的配比，即每一顆 Rubin GPU 搭配 2 顆 CX-9。
頻寬： 每顆 CX-9 提供 800 Gb/s，因此每顆 GPU 擁有 1.6 Tbps 的專屬 Scale-out 頻寬。
- 技術細節： 這裡的底層採用了 200G PAM4 SerDes 技術。

Front-End 網路 (南北向/管理)：

硬體： 中央配置 1 顆 BlueField-4 (BF-4) DPU。
功能： 負責儲存、安全卸載及管理流量，提供 800 Gb/s 頻寬(Shared with 2 CPUs or 4 GPUs)，確保運算核心專注於 AI 工作負載。

機構設計：三無設計 (No Cables, No Hoses, No Fans)

Tray 內部完全無纜線、無水管、無風扇。
這意味著電源 (Busbar) 與液冷 (Manifold) 全部採用盲插 (Blind-mate) 設計，極大化了散熱效率並降低了維護時的人為故障風險。

Switch Tray

核心配置：單 Tray 四晶片 (4 ASICs)

佈局： 如圖 6 所示，每個 Tray 搭載 4 顆 NVLink 6 Switch 晶片。
驗證： 9 個 Trays × 4 顆 = 36 顆 Switch 晶片/機櫃，完美對應 72 顆 GPU 的互連需求。
晶片規模： 每顆 Switch 晶片擁有 1060 億個電晶體。

關鍵技術突破：400G SerDes

規格：圖中紅框明確標示採用 “400G SerDes”(參考 EP23. 448G SerDes)
意義： 相比於 Blackwell (NVLink 5 200G SerDes)，Rubin 平台將 SerDes 速率翻倍至 400Gbps。這使得每條 Lane 的頻寬大幅提升，從而實現單顆 GPU 3.6 TB/s (= 36 x 400 x 2 /8)的總吞吐量。

互連架構：Scale-Up Fabric

功能： 提供機櫃內 GPU 的 All-to-All 全互連。
SHARP 技術： 支援 In-Network SHARP Collectives，這意味著 Switch 晶片本身具備運算能力，可直接在網路層處理集合通訊（如 All-Reduce），減少數據在 GPU 與 CPU 之間來回搬運的延遲(參考EP17. Scale-Up Ethernet(SUE)簡介)。

物理連接：高密度盲插 (HD Connector)

設計： 針對400G SerDes高速信號，使用 High Density (HD) connector(參考 EP23. 448G SerDes)
特點： 這種連接器專為 NVLink 6 的高頻信號設計，位於 Tray 的後方，用於直接與機櫃背板（Backplane）進行 盲插 (Blind-mate) 連接，完全摒棄了傳統纜線 (No Cables)，以確保 400G 信號在銅背板上的完整性。

NVL72 機櫃「脊椎 (Spine)」

5,184 條 NVLink Spine (銅纜背板)

物理核心：貫穿整座機櫃的巨大銅質背板，負責連接所有的運算與交換托盤。
關鍵技術：採用 盲插 (Blind-mate) 設計，完全 無纜線 (No Cables)，解決了傳統佈線的複雜與損耗問題。
戰略目的：利用銅導體實現機櫃內的極速互連，讓 72 顆 GPU 在物理上合體為 「單一巨大 GPU」。
這 5,184 條(= 72x36x2) 像微血管一樣密布在那個金色的盲插背板中，是讓 72 顆晶片融為一體的關鍵通道。
Rubin 頻寬翻倍，線數卻沒變？ Rubin 的總頻寬 (3.6 TB/s) 是 Blackwell (1.8 TB/s) 的兩倍，但它透過升級 SerDes 速度 來維持相同的佈線密度

Ethernet CPO Switch

Spectrum-6 Ethernet Switch，它是 Rubin 平台負責 Scale-Out (水平擴展) 的核心交換器，用來將多個 NVL72 機櫃串連成超大型叢集。

關鍵技術：CPO (共封裝光學)

突破點： 這是 NVIDIA 首度公開展示的 Ethernet Co-Packaged Optics 交換器。
光引擎： 內部整合了 200G Silicon Photonics (矽光子) 引擎，直接封裝在 Switch ASIC 旁，解決了電訊號長距離傳輸的功耗與衰減問題。

性能怪獸：102.4 Tb/s 交換容量

晶片規模： 擁有驚人的 3,520 億 (352 Billion) 個電晶體。

總頻寬： 提供 102.4 Tb/s 的交換容量，是目前單晶片乙太網路交換器的頂峰( (和BRCM TH6 相當)。

連接規格：

物理層 (Physical)： 配置 64 個 1.6 Tb/s 端口（每個端口包含 2 組 MPO-12 接頭，共 128 組光纖介面）。
邏輯層 (Logical)： 透過 Breakout 模式提供 128 個 800 Gb/s 鏈路。

用途：

對接網卡： 每一路 800G 鏈路精準對應一張 ConnectX-9 (800G) 網卡（每個 Compute Tray 有 8 張 CX-9，剛好佔用 switch 的 4 個 1.6Tbps 端口）。
架構目的： 實現機櫃間 (Rack-to-Rack) 的 Scale-Out 水平擴展，建構超大規模 AI 叢集網路。

Spectrum 6是Quatum-X800(InfiniBand) CPO的改進版:

Quantum-X800 (Blackwell 世代)

總容量：28.8 Tb/s。
光引擎：16 顆 (每顆 O/E = 1.6 Tbps)。
策略：無冗餘 (全配)。

Spectrum-6 (Rubin 世代)

總容量：102.4 Tb/s。
光引擎：36 顆 (每顆 O/E = 3.2Tbps)。
策略：有冗餘 (32運作 + 4備用)。為了確保量產良率，允許封裝過程中有少量引擎失效而不影響整顆晶片出貨。

但是CES 最新展示的 Spectrum-6 CPO 確實已定案為 32 顆 O/E。這代表 NVIDIA 採取了 「Zero-Spare (零實體備用)」 的量產策略，展現了對矽光子封裝製程的強大自信。

網路頻寬分析

Scale Up Network: 記憶體互連 (Memory Fabric)

核心技術： NVLink 6, NV Switch
頻寬規格： 3.6 TB/s (Bidirectional per GPU, 2x36x400Gbps/8)
技術突破：
- 業界首度導入 400Gbps SerDes (推測PAM6 )，OIF 448G規格制訂要加油了(參考 EP23. 448G SerDes)!
- 相較於 Blackwell 世代 (1.8 TB/s)，頻寬翻倍，旨在解決 MoE 模型巨大的 All-to-All 通訊需求。
- 支援 NVL72 架構下的 72 GPU 全互連單一記憶體空間

Scale Out Network: 運算互連 (Compute Fabric)

核心技術： ConnectX-9 (CX-9) SuperNIC / Spectrum-6 Switch
頻寬規格： 1.6 Tbps (Per GPU, by two CX-9)
SerDes 規格： 200Gbps PAM4
物理瓶頸分析 (PCIe 6.0 Limitation)：
- 儘管網卡支援 1.6 Tbps (約 200 GB/s 單向)，但受限於 Host 端的 PCIe 6.0 x16 匯流排速度 (約 1.024 Tbps單向)
- 此限制促使 NVIDIA 更傾向於推廣 Chip-to-Chip (C2C) 的 Superchip 設計以繞過 PCIe 瓶頸。

Front End Network: 管理與儲存互連 (Management Fabric)

核心技術： BlueField-4 (BF-4) DPU
頻寬規格： 800 Gbps
配置拓樸： 資源共享架構 (Shared Architecture)
- 1 DPU : 4 GPU (or 2 CPU)
- 透過 1:4 的配比，BF-4 集中處理 Compute Tray 內的南北向流量、儲存卸載 (Storage Offload) 與資安加密，釋放 GPU 算力

頻寬比例分析 (Bandwidth Proportionality)

架構法則 (Rule of Thumb)

Scale Up : Scale Out : Front End = 100 : 10 : 1

此比例 (72:8:1) 顯示了 AI 叢集設計的核心哲學：記憶體頻寬是絕對優先級，其次是跨節點頻寬，最後才是管理頻寬

光互連技術變革

Spectrum-6 交換器的推出，標誌著 CPO 技術從實驗室走向大規模量產的轉折點，將普及時間點從預測的 2027+ 提前至 2026。

光引擎架構 (Optical Engine Architecture)

為了在極高密度下維持散熱與訊號完整性，NVIDIA 採取了與傳統矽光子不同的激進路線(BRCM O/E用MZM，參考：EP27. Marvell + Celestial AI = ? 介紹MZM, EAM, MRM的差異; EP14. SiPH MRM介紹)

調變器 (Modulator)： Microring Resonator (MRM)
- 特徵：200G PAM4 MRM(註1)
優勢：尺寸極小，大幅提升頻寬密度
波長策略 (Wavelength Strategy)： Single Lambda (PSM)
- 配置： 不使用 WDM (波分複用)(註2)，每條光纖傳輸單一波長
- 效益：
  - Less IL (Insertion Loss)： 不用 MRM具備的 MUX/DeMUX 特性，降低光路損耗，提升能效
  - Easy Temperature Control： 避免了 WDM 系統中需同時鎖定多個 MRM 波長的極端熱控難度

註1: TSMC MRM frequency Response:

數據硬實力：圖中顯示該元件的 3dB 頻寬介於 63 GHz 至 76 GHz 之間。
物理門檻：要跑 200G PAM4 (100GBd)，依據 Nyquist 定理僅需約 53-56 GHz 的頻寬。
結論：TSMC 的 MRM 頻寬顯著超標，證實其物理層技術已完全能夠駕馭 NVIDIA Spectrum-6 CPO 所需的 200G 傳輸速率

註2: TSMC特別強調MRM的WDM特性

個人心得

400G SerDes 提早到位

NVLink 6 採用的 400G SerDes 規格令人驚艷。原本業界預期這還需要一段時間孵化，但 NVIDIA 為了達成單顆 GPU 3.6 TB/s 的吞吐量，激進地將 SerDes 速率翻倍。這對 OIF 等標準制定組織來說是巨大的壓力，也意味著 PCB 材料、連接器（如 HD Connector）與訊號完整性技術必須同步跟上。

CPO 正式邁入量產

Spectrum-6 交換器正式導入 CPO，標誌著這項技術不再是實驗室的產物，而是進入了「大量佈署」階段。特別值得注意的是 NVIDIA 在量產策略上的自信——採用「32 顆 O/E 運作、零實體備用 (Zero-Spare)」的設計。這顯示其對 TSMC COUPE 等先進封裝製程的良率已有極高把握，將 CPO 的普及時程從 2027 年提前至 2026 年。

SiPH MRM 駕馭 200G PAM4

過去對微環調變器 (MRM) 的質疑在於其頻寬限制。但依據 TSMC 的測試數據，其 MRM 的 3dB 頻寬已達 63-76 GHz ，依據 Nyquist 定理，這完全足夠支撐 200G PAM4 (100GBd) 所需的 ~53 GHz 頻寬需求。這證明了矽光子 MRM 在超高速訊號調變上的可行性。

Single MRM 勝過 WDM

雖然 WDM (波分複用) 在光譜效率上更佳，但在 Rubin 這一代，NVIDIA 選擇了 Parallel Single Mode fiber(PSM, e.g., DR4) 搭配 Single MRM 的路徑。這是一個務實的工程取捨：放棄 WDM 可以避開 MUX/DeMUX 帶來的額外插損 (Insertion Loss) ，同時解決了多波長MRM 陣列極其困難的熱控制 (Temperature Control) 問題。

補充資料

需要多少台Spectrum 6 CPO switch(SN6810-LD) ?

基礎參數確認

總需求頻寬： 1152 GPUs x 1.6 Tbps = 1843.2 Tbps
單台 Switch 容量 (SN6810-LD)： 102.4 Tbps (Spectrum-6, 128x800G or 64x1.6T)
理論最少台數： 1843.2 / 102.4 ≈ 18 台
- 但這只有在「把所有 GPU 插在一台超級 Switch 上」才成立

為什麼實際數量遠多於 18？

為了連接 1152 顆 GPU 並達成 Non-blocking (無阻塞) 傳輸，標準架構會採用 Leaf-Spine (Fat-Tree) 拓樸。這意味著 Switch 必須將其頻寬「對半切」：一半接 GPU (Downlink)，一半接上層 Switch (Uplink)

第一層：Leaf Switch (ToR)

連接限制： 一台 SN6810 雖然有 102.4T 頻寬 (約 64 個 1.6T Port)，但為了無阻塞，它只能用 32 個 Port 接 GPU，另外 32 個 Port 必須保留給上行 (Uplink)
所需數量：
- 1152 GPU / 32 (Downlink Ports/Switch) = 36 台

第二層：Spine Switch (骨幹層)

連接需求： 這 36 台 Leaf Switch 的上行頻寬，需要由 Spine Switch 來承接交換。
總上行頻寬： 36 台 x 32 Ports x 1.6Tbps
所需數量：
- (36 x 32) / 64 (Ports/Switch) = 18 台

總計數量 (Total Switch Count)

Leaf (36) + Spine (18) = 54 台

為了支撐 1152 顆 GPU 的 1.6T 全速運轉，實際部署的 SN6810-LD 數量大約在 54 台左右，這與圖中展示的視覺相符

Ted Yu

Discussion about this post

Ready for more?