EP 30. Ethernet Update

Jan 10, 2026

上回我們探討了 PCIe 7.0 的極速狂飆，這次我們將視角轉向連網技術的基石——Ethernet。從底層 SerDes 的 ADC 革命，到上層 AI Fabric 的融合架構 (Converged Fabric)，Ethernet 正經歷一場前所未有的技術蛻變。為什麼 NVIDIA 最新的 CX-9 網卡還停留在 800G？SNDR 又是如何取代 Jitter 成為訊號品質的新霸主？讓我們一探究竟。

1. Background

1.1. Ethernet Roadmap

AI 的需求正在加速Ethernet訊號標準化的進程，Ethernet 標準正加速朝更高頻寬演進，重點如下：

已成熟 (Fully Deployed)：

單通道 100G 技術已普及，主要支援 400G 和 800G 乙太網路。

制定中 (Active In Standards)：

目前標準化的重心是 單通道 200G (IEEE 802.3dj)，預計於 2026 年 7 月至 8 月 正式發布標準，以實現 1.6T 的超高速乙太網路
InfiniBand XDR（下一代技術，單通道速率約 212Gbps）計畫直接利用 IEEE 802.3dj 所定義的物理層（PHY）電氣訊號標準，共用底層 SerDes 技術，以加速開發並降低成本。

未來規劃 (Future)：

業界已開始針對 單通道 448G 進行早期提案，為下一代 AI 網路做準備。(參考EP23. 448G SerDes介紹)
NEA4AI = New Ethernet Applications for AI

Nvidia在今年CES展示Rubin platform，其中ConnectX-9 仍然用800Gbps。

CX-9 維持 800G 是受限於主機介面，而非網路技術：

卡在 PCIe 頻寬 (瓶頸)： 目前的 PCIe 6.0 x16 插槽，實際頻寬極限只能餵飽 800G 的網卡，無法支撐 1.6T 的資料量(> 64Gbpsx16 = 1.024Tbps)。這也是為什麼業界迫切需要 PCIe 7.0 (128 GT/s) 的原因，只有到了 PCIe 7.0，單一 x16 插槽才能真正釋放 1.6T 網卡的潛力。
技術用於「減道」而非「總速」： CX-9 確實使用了先進的 200G/lane 技術，但它是配置成 4 條 200G (4x200G = 800G)
- 目的： 用更少的通道（4條 vs 舊款8條）達成同樣的速度，以降低功耗和簡化佈線。

註: 沒有 IB Switch? = 只是沒有「新款」IB 晶片，Rubin 仍沿用 Quantum-X800，但 NVIDIA 顯然想藉此機會大推 Spectrum-6 乙太網路交換器

市場對頻寬的需求（You need Bandwidth）正在迫使技術更新的週期變得越來越短:

標準制定週期大幅縮短

每一代新速率標準的推出間隔正在急劇縮短
- 從 25G 到 50G 通道花了 6.5 年。
- 從 100G 到 200G 通道縮短至 3 年。
- 預計未來從 200G 到 400G 通道的過渡將 小於 3 年

技術演進路線圖

目前階段 (Green, ~1.6Tbps): 主流技術使用 PAM4 調變，單通道速率達到 212.5 Gbps (對應 1.6T 乙太網路)。
未來轉折 (Purple, 3.2Tbps+): 為了達到 3.2Tbps (2025年) 及更高的總頻寬，技術將發生重大變革。預計單通道速率將提升至 424 Gbps，並且調變技術將從 PAM4 轉向 PAM6 (Pulse Amplitude Modulation 6-level)
長遠展望 (14.5Tbps): 到 2031 年，預計單通道速率將達到 1696 Gbps，並可能採用 PAM8 調變。

為了應對 AI 與資料中心對頻寬的渴求，高速介面技術的更新換代速度正在加快，且即將迎來從 PAM4 到 PAM6 的技術跨越。(參考EP23. 448G SerDes介紹)

1.2. OIF (Optical Internetworking Forum) 簡介

OIF 是一個由成員驅動的全球性組織，已有超過 25 年的歷史，擁有 150 多家成員公司。其核心宗旨是 「加速光網路技術的市場採用」。

重點技術領域

電氣介面 (Common Electrical I/O, CEI): 定義高速建構模組，如 CEI-448G、224G，這對下一代 AI 網路至關重要
光學 (Optical): 推動多廠商在客戶端外型規格（如 1600ZR+）的互通性。
管理介面 (Management): 制定 CMIS (Common Management Interface Specification)，簡化主機與模組間的溝通。
能效介面 (Energy Efficient Interfaces): 針對 AI/ML 資料中心開發低延遲、低功耗介面（如 LPO/CPO 技術）

OIF 與 IEEE 802.3 的關係

OIF 與 IEEE 802.3 雖然都是定義網路規範的組織，但兩者是 「互補且共生」 的關係，而非競爭。

角色定位不同：先鋒 vs. 標準

OIF (加速者/先鋒): OIF 通常走在前面，專注於底層 「電氣介面, CEI)」 的快速定義。它發布的是「實作協議 (IA)」，讓廠商在正式標準定案前就能開發相容的晶片與模組。
- 例如：圖片中提到的 CEI-224G 和 CEI-448G，就是為了支援未來 Ethernet 速率所做的底層電氣訊號規範。
IEEE 802.3 (官方標準制定者): IEEE 定義完整的 Ethernet 「標準 (Standards)」，包含邏輯層、物理層等。IEEE 的標準制定過程嚴謹且漫長，目的是確保全球範圍的廣泛互通。

技術依賴：CEI 是 Ethernet 的基礎

Ethernet (IEEE 802.3) 的物理層標準，往往會直接引用或參考 OIF 制定的電氣規範 (CEI)。

晶片到模組 (Chip-to-Module) 的橋樑： 當 IEEE 定義 800G 或 1.6T Ethernet 時，交換器晶片如何與光模組溝通的電氣訊號（SerDes），通常是參考 OIF 的 CEI 規範。
實例：
- IEEE 802.3df/dj (1.6T Ethernet) 需要單通道 200G/224G 的技術。
- 這直接對應到 OIF 正在進行的 CEI-224G 專案。
- 同樣地，IEEE 未來的 400G 單通道研究，也將依賴 OIF 目前啟動的 CEI-448G 作為基礎。

互通性測試 (Interop)

OIF 的另一個重要功能是舉辦 Interop Demos。在 IEEE 標準正式發布前，OIF 會先讓各家廠商帶著自己的原型機（晶片、光模組、線纜）進行對接測試。這些測試結果會回饋給業界，幫助 IEEE 標準更成熟，也讓市場對新技術更有信心。

1.3. 速度數值差異

802.3dj: 212Gbps/lane vs. 200Gbps/lane

使用者要的是 200G (Data Rate)： 這是淨流量。
線路必須跑 212.5G (Line Rate)： 為了保證訊號在高頻下的正確性，物理層必須加入 FEC (前向錯誤更正碼, RS(544,514)) 和Transcoding(257B/256B)。這多出的 12.5G 就是用來裝這些物理開銷(Overhead)。

OIF CEI-224Gbps vs. IEEE 802.3dj 212Gbps

OIF 叫 224G (標稱值)： 這是一個「規格級別」的統稱。代表這顆 SerDes 晶片的能力上限約在 224G，可以向下支援 Ethernet 的 212.5G，也可以支援其他協定。
IEEE 叫 212.5G (精確值)： 這是乙太網路協議中定義的「實際工作頻率」。
InfiniBand 和 ITU-T OTN 不再單獨開發獨有的物理層，而是直接「搭便車」，沿用 IEEE 定義好的 PHY，以分攤高速SerDes開發成本

1.4. Ethernet命名規則

Ethernet 的命名規則看似複雜，其實是遵循一個標準公式：nTYPE-LLLm。

只要拆解這個公式，就能立刻知道該介面的速度、傳輸介質、距離以及通道數量

n (Data Rate)：傳輸速率

這是最直觀的部分，代表介面的頻寬。

例如：100G (100 Gbps), 400G, 800G 等

TYPE (Modulation Type)：調變類型

BASE：代表 Baseband (基頻) 傳輸。目前絕大多數乙太網路標準都使用 BASE。

L (First Letter)：介質或波長 (關鍵分類)

這是辨識該介面用途（是用銅線還是光纖？跑多遠？）最重要的字母：

電氣/銅線介面：
- C (Copper): Twin axial Copper。通常指 DAC (Direct Attach Cable) 銅纜，用於機櫃內短距連接。
- K (Backplane): 背板。指訊號在 PCB 電路板上傳輸，不用纜線，用於機箱內部刀鋒伺服器或模組間的連接。
- T (Twisted pair): 雙絞線。即傳統的 RJ-45 網路線。
光纖介面 (依波長/距離區分)：
- S (Short): 短波長 (850 nm)。搭配多模光纖 (Multimode)，距離較短（如 SR）。
- L (Long): 長波長 (1310 nm)。搭配單模光纖 (Single mode)，距離較長（如 LR）。
- E (Extra long): 超長波長 (1550 nm)。用於超長距離傳輸（如 ER）。
- F (Fiber): 通用光纖標示（較少見，通常會指定 S, L, E）。
- (補充：雖然紅框未列出，但在左側範例中有出現 V (Very Short) 和 D (DR)，分別代表極短距和資料中心內距)。

L (Second Letter)：編碼方式

R (Scrambled): 代表使用 64B/66B (或其衍生的 256B/257B) 擾碼編碼。這是現代高速乙太網路最主流的編碼。
X (External): 使用外部來源編碼 (如 8B/10B)，常見於較舊的標準。

m (Last Number)：通道數量 (Lanes)

代表由幾條實體通道（Lanes）組成這個總頻寬。

無標示 (空白): 1 條通道 (Serial)。
4: 4 條通道。
8: 8 條通道。

實戰解讀範例 (根據圖片左側列表)

800GBASE-KR8
- 800G: 速率 800 Gbps。
- K: Backplane (背板傳輸，機箱內 PCB 走線)。
- R: Scrambled coding。
- 8: 由 8 條 100G 的通道組成。
800GBASE-CR8
- C: Copper (DAC 銅纜)。
- 意思： 用 8 條銅纜通道連接的 800G 介面。
800GBASE-SR8
- S: Short wavelength (短距光纖)。
- 意思： 使用多模光纖的 800G 介面，通常距離在 50m~100m 左右（參考左下角表格，SR 在 OM4 光纖可達 100m）。
800GBASE-VR8
- V: Very Short (極短距)。因應資料中心內部更密集的 Server-to-TOR (Top of Rack) 連接需求，為了降低成本和功耗而生的規格
- 意思： 比 SR 更短的光纖連接，通常用於 30m~50m 範圍（參考左下角表格）。

1.5. Ethernet結構

這張圖表非常清晰地展示了 IEEE 802.3 標準下的 Ethernet 結構，特別是將 OSI 模型的「實體層 (Physical Layer)」 拆解成了更細部的功能區塊:

簡單來說，它就像一個**「精密的物流中心」**流水線：

MAC (大腦 / 訂單處理)：

位於最上層。只負責邏輯控制（如：這筆資料要寄給誰、MAC 地址是幾號），完全不關心外面是用光纖還是銅線傳輸

PCS + FEC (包裝 / 加固)：數位訊號處理的核心

PCS (編碼)： 把資料切塊並編上序號 (64B/66B 或 256B/257B)，確保接收端能讀懂。
RS-FEC (防護)： 加上糾錯碼。因為高速傳輸路上一定會有雜訊導致資料破損，這一層負責先加上「修復工具包」，讓接收端能自動修復錯誤。

PMA + PMD (卡車 / 運輸)：位於最底層。

PMA (搬運)： 把平行的數位資料轉成超高速的序列訊號 (SerDes)。
PMD (驅動)： 實際接觸線材的介面，負責把訊號打入中。

Ethernet 運作的流水線： MAC (打包裹) -> PCS (寫編號/編碼) -> FEC (加防撞泡棉/糾錯) -> PMA (裝上卡車/序列化) -> PMD (開上高速公路/傳輸)。

2. Transceiver Update

2.1. 架構

以106/112 Gbps (即單通道 100G) 的設計為例，介紹高速 SerDes Transceiver (收發器) 的內部架構。 (參考EP23. 448G SerDes介紹)

這是一個非常經典的 ADC-based SerDes 架構圖。在高速訊號（如 112G PAM4）中，這是目前的主流設計。(參考EP29. PCIe 7.0 )

發送端 (TX - Transmitter)

左側方塊是發送端，負責將數位資料「發射」出去。

FEC (Forward Error Correction): 先把資料加上糾錯碼。
SER (Serializer): 序列化。將低速、平行的內部資料流，轉成單條高速的序列訊號。
TX FIR (Finite Impulse Response filter): 這是發送端的等化器（Pre-emphasis）。
- 目的： 因為預知訊號在傳輸過程會衰減，所以先在發送端「預先扭曲」訊號（例如增強高頻部分），抵消通道的損耗。
TX DRV (Driver): 驅動器。增強訊號強度，將電壓打入通道

接收端 (RX - Receiver)

右側方塊是接收端，這是設計最複雜、最困難的地方。它的任務是從充滿雜訊的通道中把訊號「救回來」。

A. 類比前端 (Analog Front End)

CTLE (Continuous Time Linear Equalizer): 第一道濾波器。這是一個類比電路，負責初步補償高頻訊號的衰減。
VGA (Variable Gain Amplifier): 可變增益放大器。調整訊號的「音量」（電壓擺幅），確保訊號強度剛好適合進入 ADC，不會太大（削波）或太小（被雜訊淹沒）。

B. 數位核心 (The ADC Revolution)

這是 112G 世代最大的變革點。

ADC (Analog-to-Digital Converter):
- 在以前的低速時代（NRZ），訊號處理多在類比領域完成。
- 但在 112G PAM4 時代，訊號太複雜，必須用ADC 將類比電壓直接取樣成數位數值。
- 一旦變成數位訊號（0101...），就可以利用強大的 DSP（數位訊號處理器）來運算。
FFE (Feed Forward Equalizer): 數位等化器。在數位領域消除碼間干擾 (ISI)。圖中註解提到，現在的架構趨勢是 “FFE heavy”，意即依賴 FFE 來處理大部分的失真。
DFE (Decision Feedback Equalizer): 決策回授等化器。用來消除剛判斷完的訊號對下一個訊號的殘留干擾。
CR / CDR (Clock Recovery): 從雜亂的數據中提取出乾淨的時脈 (Clock)，讓系統能同步運作。

關鍵技術轉型 (Transition at 112Gbps)

紅框內的文字揭示了從 56G 到 112G 的三大設計典範轉移：

Analog-based → ADC-based:
- 過去： 依靠類比電路判斷 0 或 1。
- 現在： 就像拍一張高解析度照片 (ADC)，然後用 Photoshop (DSP) 修圖。這樣可以處理更複雜的 PAM4 訊號與雜訊。
DFE heavy → FFE heavy:
- 過去： 依賴強大的 DFE 來消除反射。但 DFE 在高速下很難做（Timing 閉合困難）。
- 現在： 轉而依賴長抽頭的 FFE（線性等化器），雖然 FFE 會放大雜訊，但配合強大的 FEC 和 DSP 是更有效率的解法。
PPA (Power, Performance, Area) 的權衡:
- 雖然 ADC 架構功耗較高，但為了達到 112G 的性能要求（Performance），這是必要的代價。
- FFE 相較於複雜的 DFE，在晶片面積（Area）上更有效率。

Equalization (等化器) 在高速傳輸系統中的核心作用

Equalizer 的功能就是「逆轉」傳輸通道造成的訊號損傷，把閉上的「眼睛」重新撐開

問題：通道是個「低通濾波器 (LPF)」

物理現象： 當訊號通過 PCB 走線或纜線（Channel）時，高頻成分衰減得特別快，而低頻成分衰減較少。這在物理上就像一個低通濾波器。
後果 (No Channel Compensation)： 如第一排圖示，原本平坦的發射訊號，經過通道後高頻掉下來了。這會導致訊號邊緣變「糊」，在眼圖上就表現為眼睛閉合（如左側 112G PAM4 的圖，糊成一團雜訊）。

原理：缺什麼，補什麼

Equalizer 的核心數學原理是**「反向補償」**。

既然通道會吃掉高頻，Equalizer 就在高頻「加強」。
目標： 讓「發送端 + 通道 + 接收端」的總頻率響應變回平坦的一條線

實作：發射端與接收端的聯手夾擊

A. 發射端 (Transmitter) - 預知與預強

在訊號送入爛通道之前，先進行「預處理」。

Pre-emphasis (預加強)： 直接增強訊號的高頻成分（Boost high frequency）。
De-emphasis (去加強)： 壓低訊號的低頻成分（Reduce low frequency）。這通常比較容易實現，因為降低振幅比放大振幅（需要更多電壓餘裕）簡單。
效果： 您可以看到右下角第二排的第一個圖，發送出的訊號不再是平的，而是高頻翹起來的，為了抵消接下來的路損。

B. 接收端 (Receiver) - 修正與還原

訊號抵達接收端後，通常已經變形，這時需要 RX Equalizer 來搶救。

CTLE (連續時間線性等化器)： 類比電路。它是一個高通濾波器，專門放大高頻，把被通道壓扁的高頻訊號拉回來。
FFE (前饋等化器)： 數位/類比皆可。利用延遲線消除 ISI (碼間干擾)。
DFE (決策回授等化器)： 利用「已經判斷出的值」來預測並抵消對下一個 bit 的干擾。它非常強大，因為它不會像 CTLE 那樣放大雜訊。

2.2. SNDR(Signal-to-Noise-and-Distortion Ratio)

從 NRZ 演進到 PAM4，訊號的「敵人」從時間軸上的抖動 (Jitter) 變成了 電壓軸上的雜訊 (Noise/Distortion)。(參考EP29. PCIe 7.0 )

為什麼重點變了？ (Jitter vs. Noise)

NRZ 時代 (只有 0, 1):

眼圖只有一個大眼睛。電壓餘裕（Voltage Margin）很大，訊號很強壯，不怕一點點雜訊。
致命傷： 時脈如果不準（Jitter 太大），會在邊緣取樣錯誤。所以大家都在拼命算 TJ, RJ, DJ。(參考EP28. Jitter)

PAM4 時代 (00, 01, 10, 11):

眼圖變成了三個咪咪眼。電壓區間被切成 1/3，每個眼睛的高度（Eye Height）只剩下原本的 33% 甚至更少。
致命傷： 只要電路上有一點點雜訊（Noise）或非線性失真（Distortion），眼睛就閉上了。這時光看 Jitter 已經不夠，必須看「垂直方向」乾不乾淨。

SNDR 的核心概念：把「好訊號」跟「壞雜訊」分開

SNDR (Signal-to-Noise-and-Distortion Ratio) 的目的，就是用一個數字告訴你：「你的訊號裡，有用的成份比沒用的雜訊強多少？」

公式如下

Ethernet vs. PCIe 6.0

Ethernet / OIF-CEI (網通標準):

計算長度： 脈衝響應 P(k) 最長算到 200 UIs。
訊號強度： 直接取脈衝的最高點 P_max 來當分子。
意義： 網通訊號經過長距離傳輸，著重於主訊號的峰值強度能否蓋過雜訊。

PCIe 6.0 (匯流排標準):

計算長度： 更長，算到 600 UIs。
精細度： 因為 PCIe 更加敏感，它把 Pulse 分成奇數 P_O 和偶數 P_E 兩組來擬合。
訊號強度： 不只看最高點，而是看整個脈衝響應的平方和 (Sum of Squares)。
意義： 這能更全面地評估包含反射在內的總能量品質。

2.3. LFPR(Linear Fit Pulse Response, 線性擬合脈衝響應)

計算 SNDR 的核心確實是**「先求出完美的標準，再反推雜訊」**，流程如下：

假設線性非時變 (LTI, Linear Time Invariant)：

認定訊號傳輸遵循「卷積 (Convolution)」原理，即輸出訊號是由無數個單脈衝響應 ( SP(k) )(Single Bit Response, SBR) 疊加而成的。(以下討論，用P(k)表示 SBR)

擬合標準 (P_max)：

利用 LFPR 數學方法(最小平方法)，從充滿雜訊的實測波形中，逆向還原出那條「乾淨的理想脈衝曲線 P(k) 」。這條曲線的最高點，就是代表訊號強度的P_max。

分離雜訊 (Noise Extraction)：

訊號 (Signal)： 即算出來的P_max。
雜訊 (Noise/Distortion)： 用「實際量到的波形」減去「還原的理想波形」，剩下的殘差就是雜訊。
兩者相比，即得到 SNDR。

LFPR 物理意義

LFPR 的運算過程，可以不用微分的數學方式，求出脈衝曲線 P(k):

在物理與幾何上就是將**「真實量測到的波形」，垂直投影到一個由「理想訊號」**所構成的平面上，藉此把「好的訊號」跟「壞的雜訊」切得乾乾淨淨。

核心動作：線性擬合 = 垂直投影

LFPR 的數學計算（最小平方法），本質上只做了一個幾何動作：尋找最近的影子 。

它將真實世界充滿雜訊的波形向量 (Y)，垂直投影到一個理想的「信號空間 (Signal Space)」上。
投影下來的那個「影子」，就是我們要的純線性成分 (XP)。

三個關鍵向量的物理/幾何對照

將公式 Y = XP + E 轉化為直觀的幾何圖像

Y (觀察向量 / 量測波形)：
- 物理意義： 示波器抓到的真實電壓，混雜了訊號、雜訊和失真。
- 幾何圖像： 懸浮在空間中的一個箭頭，沒有落在平面上。
XP (投影向量 / 擬合波形)：
- 物理意義： 純線性成分，即 SNDR 的分子（Signal）⁶。
- 幾何圖像： 躺在「信號空間」平面上的影子，是 Y 在這個理想世界中最像的分身。
E (正交誤差向量 / 雜訊)：
- 物理意義： 非線性失真與雜訊，即 SNDR 的分母（Noise）
- 幾何圖像： Y 到平面的**「垂直高度」**。這是所有線性模型無法解釋的殘餘

正交性: 為什麼這個觀點重要？

這不只是畫圖好看，而是有嚴格的物理保證：正交性 (E和XP內積為0)

因為投影是「垂直」的，所以分離出來的誤差 E與信號空間 XP 完全不相關。
這保證了我們已經把所有能算作「線性訊號」的東西都榨乾了（萃取到 XP裡），剩下的 E 就是純粹的垃圾（非線性雜訊 + 熱雜訊）。

工程調校的幾何意義

調整 TX FFE： 就是在改變影子的形狀 P，讓它更漂亮。
改善驅動器線性度： 就是把懸浮的 Y 壓低，讓它離地面（信號空間）更近，直接減少高度 E(即減少雜訊) 。

LFPR 就是利用最小平方法，將混雜的真實訊號 Y，投影到理想信號空間 X，從而將線性響應 (XP) 與 非線性雜訊 (E) 完美分離的幾何過程。

3. AI Applications

3.1. Infrastructure

典型的高效能 AI 資料中心網路架構（AI Data Center Networking Infrastructure）

前端與後端網路的分離 (Front-End vs. Back-End)

Front-End Network (前端網路)：圖中上方的網路
- 功能：負責一般的控制平面（Control Plane）流量、用戶接入、以及與通用伺服器（General Purpose Servers）和存儲設備（Storage）的數據傳輸。
- 協定：通常使用標準的 Ethernet (TCP/IP)。
- 特點：強調兼容性與管理便利性，頻寬需求相對較低（相較於 AI 計算網路）。
Back-End Network (後端網路/AI Fabric)：圖中下方連接 GPU 的網路。
- 功能：專門用於 GPU 之間的參數同步（Parameter Synchronization）與梯度交換（Gradient Reduction）。
- 特點：極致的高頻寬、低延遲、無損傳輸（Lossless）。

三種擴展維度 (Three Dimensions of Scaling)

Scale-Up (節點內擴展)：
- 位置：圖中 “GPUs” 區塊內部的密集連線。
- 意義：指的是單一台伺服器（Node）內，多個 GPU 之間的互連。
- 技術：通常採用私有高速協定，如 NVLink/NVSwitch, UALink, 或OCP ESUN/SUE。這讓多顆 GPU 能共享記憶體空間，行為像是一顆巨大的虛擬 GPU。
Scale-Out (節點間擴展)：
- 位置：連接不同 GPU 伺服器機箱的第一層交換機網路。
- 意義：將多台 AI 伺服器組成一個 Pod 或 Cluster。
- 技術：通常使用 InfiniBand，RoCEv2 (Ethernet) 或 UEC。這裡的重點是利用 RDMA 技術降低 CPU 負載並減少延遲。
Scale-Across (跨叢集/跨層級擴展)：
- 位置：圖中最底層的網路連接。
- 意義：指將規模進一步擴大，連接多個 Pod 或將算力擴展到整個資料中心層級（Spine-Leaf 架構的更上層）。這通常涉及到長距離的光纖傳輸(Coherent modulation)與更複雜的流量調度。

3.2 Converged Fabric ?

軟體工程師的痛點與期待(from Meta)

目前 AI 叢集被物理限制割裂成兩個世界，導致軟體開發極其痛苦：

Scale-Up (單機/機櫃內)：
- 行為：Load/Store (記憶體語義, Memory Semantic)。
- 體驗：像存取本機記憶體一樣簡單、快速。GPU 之間可以直接讀寫對方的 HBM (如 NVLink)。
Scale-Out (跨機櫃)：
- 行為：Message Based (網路語義, Network Semantic)。
- 體驗：必須將資料打包、傳送、解包 (Send/Recv)。延遲高，且需要複雜的通訊函式庫 (MPI/NCCL, Message Passing Interface/NVIDIA Collective Communications Library)。
SW 的期待：軟體工程師希望消除這條界線。他們夢想中的 Converged Fabric 是讓整個資料中心（成千上萬顆 GPU）看起來像一台擁有統一記憶體的超級電腦。無論資料在哪，都能用 Load/Store 指令直接存取，無需關心底層是走銅線還是光纖。

要達成這個夢想，網路必須同時具備以下的特性(OCP 2025 Summit)：

兼具兩種語義：既能跑網路封包(Network Semantic)，又能跑記憶體指令(Memory Semantic) 。
小封包低延遲：記憶體存取通常只有 64B~256B，網路通常處理 1500B 以上。用大卡車載一根針，效率極差。
極致可靠性：網路掉包重傳是可以接受的，但記憶體讀取失敗會導致程式崩潰 (Crash)。

BRCM/OCP的解決方案:

開放陣營 (Open Standard) 對抗 NVIDIA 封閉生態的終極戰略：「全乙太網 AI 架構 (All-Ethernet AI Infrastructure)」: SUE/ESUN + UEC = Converged Fabric

Scale-Up 端：SUE / ESUN (取代 NVLink)

定位：記憶體擴展 (Memory Semantic)。
任務：在機櫃或 Pod 層級 (Up to 2048 XPUs) 模擬「共享記憶體」。
核心能力：
- 提供 < 1us 的超低延遲與硬體級無損保證 (LLR)。
- 讓乙太網支援 Put/Get/Atomic 指令，軟體寫入遠端就像寫入本地。

Scale-Out 端：UEC (取代 InfiniBand)

定位：網路擴展 (Network Semantic)。
任務：在跨機櫃、跨資料中心的萬卡規模，提供最高效率的傳輸。
核心能力：利用 Packet Spraying (封包噴灑) 與先進擁塞控制，解決傳統乙太網在長距離負載下的頻寬浪費問題，達到 90%+ 的鏈路利用率。

Converged Fabric (融合架構)

無縫接軌：資料從 GPU 出來都是乙太網封包。短距離走 SUE 協定 (低延遲)，長距離走 UEC 協定 (高吞吐)，中間不需要透過 Gateway 進行昂貴的協定轉換 (Translation Tax)。
統一生態：打破單一廠商鎖定。AMD、Intel 或自研晶片都能透過標準交換機 (如 Broadcom Tomahawk) 組建成高效能叢集。

請參考EP17. SUE簡介，EP21. OCP Global Summit

Ted Yu

Discussion about this post

Ready for more?