EP22. Interconnect Media
OCP Global Summit的資料公開了,感謝OCP開放的作法,受益良多。 本周繼續利用OCP資料庫,聊聊Interconnect的介質,分享個人觀點,歡迎討論。
1. AI DC Networking Infrastructure
1.1. Big Picture Update
經典的架構圖中增加了Scale-Across。 是由 NVIDIA 在近期(2025 年 8 月的 Hot Chips 大會上)正式提出並大力推廣的。
它在傳統的「Scale-Up」和「Scale-Out」基礎上,增加了「Scale-Across」(跨資料中心互連)。
「Scale-Across」是 NVIDIA 的新概念,旨在使用 Spectrum-XGS 等技術,將多個地理位置分散的資料中心,整合成一個統一的、巨型「AI 超級工廠」。
NVIDIA 提出的「Scale-Across」極大地提升了資料中心之間 (DCI) 的網路需求,這正是 Ciena, Nokia 等的傳統強項(Coherent modulation,DWDM)。
然而,AI 同時也引爆了資料中心內部 (Scale-Out) 的網路瓶頸。傳統的可插拔光模組已達功耗極限,未來必須轉向 NPO/CPO。
Ciena 收購 Nubis(一家 CPO 技術公司, 完成收購:2025 年 10 月 7 日),目的就是從它稱霸的「外部 (Scale-Across)」市場,一舉切入「內部 (Scale-Up)」市場,意圖通吃 AI 資料中心從內到外的光通訊商機。
1996年,Ciena 公司透過其 MultiWave 1600 系統,首次將「DWDM」(密集波分多工)技術商用化。此舉讓電信商,能在「不鋪設新光纖」的情況下,利用不同波長(顏色)的光,將「單條」光纖的傳輸容量瞬間提升了 16 倍(從 2.5 Gb/s 飆升至 40 Gb/s),引爆了寬頻光通訊革命。
1.2. Media
這張圖展示了 AI 工廠在不同距離下的互連技術,介質(Media)是這張圖的基礎分界。
Copper (銅纜):
範圍:僅限機櫃內 (Rack) 的短距離(約 1-3m)。 AEC(Active Electrical Cable,主動式電纜) 能將銅纜的有效傳輸距離從 2 公尺(DAC(Direct Attach Cable,被動式電纜 ))延長到 5-7 公尺
應用:例如 DAC,用於伺服器連接機頂交換機 (ToR)。
Optical (光纖):
範圍:一旦超出機櫃(從 10m 到 1,000km+),就必須使用光纖。
技術:隨著光纖距離拉長,光學技術也隨之升級
PAM4:用於資料中心內部(~10m - 2km)
Coherent-lite:用於園區級(~2km - 20km)
ZR / ZR+(Coherent):用於跨區域(20km+),實現「Scale-Across」
AI 工廠在機櫃內用銅纜,出了機櫃一律用AEC( <7m)或光纖,且距離越遠,光纖所需的光學技術(從 PAM4 到 Coherent)就越複雜。關於Coherent調變技術,請參考EP3和EP7.
1.3. Scale-Up Scaling
目前「AI Scale-Up」(AI 伺服器內部的互連)主要使用銅 (Copper),核心原因就是為了實現最低的「功耗」(Power) 和「成本」(Cost)。
目前「AI Scale-Up」是在伺服器機箱內部,特別是指 GPU 之間、以及 GPU 到內部交換機(如 NVSwitch)的超高頻寬連接。
銅的優勢: 在「Scale-Up」對應的極短距離上(標示為 “Tray” 和 “Rack” 層級),銅介質(Copper)展現了絕對優勢:
PCB trace (電路板佈線):功耗最低、成本最低
Copper cable (銅纜):功耗低、成本低
光學的劣勢: 相對地,光學 (Optics) 雖然傳輸距離非常長(適用於 Scale-Out),但在短距離上,它的功耗 (Higher power) 和成本 (Higher cost) 都顯著高於銅。這是因為光學方案需要額外的「光電轉換」和「電光轉換」晶片(如 DSP、Driver、TIA),這些都會消耗大量電力並增加成本。
在 AI 伺服器內部(Scale-Up)這種「寸土寸金」且對功耗極度敏感的環境中,銅(包含 PCB 佈線和內部高速銅纜)是目前唯一能在短距離內,同時滿足超高頻寬、最低功耗和最低成本的解決方案
因為LLM的需求,GPU 互連數增加(從 64 擴展到 2048),這個「Scale-Up 叢集」就必須「跨機櫃」(cross-rack)
一旦 Scale-Up 的規模大到需要「跨機櫃」,這就代表銅纜 (Copper) 的極限到了:
Copper (DAC/AEC):適用於機櫃內 (Rack),或頂多到相鄰機櫃 (Row),極限約 3-7 公尺。
Optics (光纖):只要距離一拉長,「跨機櫃」的連接就必須使用光纖(例如 AOC(Active Optical Cable,主動式光纜),或插入式光模組)。
一旦轉為光學,功耗 (Higher power) 和成本 (Higher cost) 就會飆升,這也正是 CPO/NPO 技術試圖解決的核心痛點。
1.4. 功耗
如果Scaling不是問題,光纖 (Optics) 要取代銅 (Copper) 用於 Scale-Up,關鍵在功耗:
現在 (2027年以前):銅 (AEC/DAC) 的功耗遠低於傳統光模組。
轉捩點 (2027年開始):CPO(共封裝光學)技術將成熟,其功耗首次能降至 10 pJ/bit 以下,使其在功耗上具備了取代銅的可行性。
未來 (2028年後):先進的 CPO/NPO 功耗將追平甚至優於銅,屆時才能真正實現兼具低功耗和長距離的大規模光學 Scale-Up 網路
這和 Yole 報告的預測CPO 的爆發時間點一致:
用於 Scale-Up(紅色區塊)的 CPO 營收,在 2027 年之前幾乎為零。
從 2027-2028 年開始,Scale-Up CPO 才首次出現有意義的商業營收並開始快速增長,與前一張功耗圖顯示「CPO 在 2027 年技術才達標」的結論完全一致。
2. Copper
2.1. AEC
AECs (Active Electrical Cable, 主動式電纜) 與傳統的 DACs (Direct Attach Cable, 被動式銅纜) 的對比:
AEC核心優勢總結如下:
傳輸距離 (Reach):
AEC (紫色線):透過內建晶片(Retimer DSP)增強訊號,將傳輸距離延長至 7 公尺。
DAC (黑色線):距離非常短(通常 2-3 公尺)。
關鍵影響:AEC 的 7 公尺距離足以實現**「跨機櫃」(Rack-to-Rack) 連接**,而 DAC 基本只能用於機櫃內。
線纜體積 (Cable Bulk):
AEC (紫色線):線纜更細 (直徑 6mm vs 10mm)、更靈活 (彎曲半徑(BR) 3x vs 5x),如右圖所示,佈線更整潔、更利於機櫃內的空氣流通散熱
DAC (黑色線):線纜非常粗重且僵硬,如左圖所示,佈線困難且會嚴重阻礙氣流
今年7月,Elon Musk在社群媒體X上發布了xAI資料中心Colossus 2的照片。這項人工智慧新創公司計劃,在田納西州孟菲斯打造一座超級電腦中心。 Musk分享的圖片尤其突出其伺服器背後的成千上萬根整齊的紫色電纜——這正是Credo公司標誌性的產品。
Credo 是一家專門提供高速連接 (high-speed connectivity) 解決方案的無廠半導體公司(Fabless),創始團隊成員中,多人來自 Marvell。他們的核心技術是 SerDes(串化器/解串化器)和 DSP(數位訊號處理器),這兩者是所有資料中心高速傳輸(無論是銅纜還是光纖)的基礎。
Credo 在當前的 AEC 市場(特別是在 400G 和 800G 應用上)佔有超過 50% 的市佔率,有些報告的估計甚至高達 60% 至 70%。
Credo 公司宣布收購了新創公司 Hyperlume(2025 年 9 月 29 日)。Hyperlume 是一家專門開發基於 MicroLED(微型發光二極體) 的光學互連技術的公司,其技術主要用於 AI 資料中心的晶片對晶片(chip-to-chip)通訊。
Credo 此次收購的目的是為了將這項尖端的 MicroLED 技術整合到其產品組合中,以應對 AI 基礎設施未來對更高頻寬、更低功耗和更低延遲的連接需求。
2.2. AEC規劃中的應用
Rubin NVL144 Racks: 用於Backend(Scale-out) & Frontend
Rubin Ultra NVL576: 用於Backend(Scale-out) & Frontend
2.3. Nvidia Kyber(NVL576) Scale up Topology
Kyber 架構的核心重點重新整理如下:
Compute Blade Specs: 每塊刀鋒包含兩顆「Rubin Ultra GPUs」和兩顆「Vera CPUs」,每顆Rubin Ultra GPU有4 個die。
Canister: 每個 Canister 有18片Compute Blade,包含 36 顆「R300 GPUs」(36x4=144 晶粒,NVL144) 和 36 顆「Vera CPUs」
Canister 裡的 GPUs,是透過一塊大型的「PCB 背板」(PCB Backplane) 來連接到 NVSwitch Blade(交換器刀鋒)。
由於訊號速率極高(如 400Gbps),傳統 PCB 材料衰減太快,因此這塊背板必須使用 PTFE (鐵氟龍) 這樣的昂貴、超低損耗材料來製造,才能確保訊號完整性。
每個Kyber 有4個Canister(4x144=576 dies,NVL576),跨 Canister 的 NVSwitch 互連方法,圖中提到正在評估使用 DAC, ACC(Active Copper Cable, 有源銅纜) 和 AEC。。
關於NVSwitch的網路拓譜,圖中有註解:
“move from a nonblocking, all-to-all, rail-optimized 1-tier...topology”
「L1 架構」很理想 (nonblocking, all-to-all),但因為沒有這麼大Radix的NVswitch,L1架構變得不可行,。
“to a... 2-tier network topology with oversubscription or a non-Clos topology”
這就是AMD專家所說的「L1.5」或「務實的妥協方案」(參考EP16. )。
明確點出了架構特性:它是
2-tier(兩層) 且不是傳統的 Clos 拓撲明確點出了犧牲點:引入了
oversucription(超額訂閱/頻寬妥協)。
“rail-optimized” (導軌優化)”,Kyber的特色
這句話中兩次提到
rail-optimized,物理架構 (符合機櫃導軌) 是造成這個關鍵的限制因素。
L1 不可行 -> L2 Clos 太複雜/不符要求 -> L1.5/Non-Clos 是務實的妥協方案,犧牲頻寬以符合物理要求) 是對這句話最準確的解讀
Kyber 架構就是一個在物理極限邊緣,用盡一切先進的「銅」技術(從 PCB 材料到主動式電纜),來盡可能推遲使用「光」技術的經典範例。
NVidia工程師將這句話 “Copper when you can, optics when you must”發揮到極致。
3. Optics
3.1. 102.4T CPO 交換器
新世代102.4T CPO 交換器的三大主要競爭者:
NVIDIA: Spectrum-6 晶片 (用於 Spectrum-X / Quantum-X 平台)
Broadcom: Tomahawk 6 (TH6) “Davisson”
Marvell: Teralynx 12
核心技術: 這三家公司的 102.4T 平台,共同點都是採用 200Gbps SerDes(512 lanes x 200Gbps = 102.4T)作為基礎。
NVIDIA 看似最快,因為他們已經「產品化」並給出了上市時程。在今年3月GTC也展示了Quantum X(InfiniBand) CPO資訊,採用TSMC COUPE工藝(參考EP6.)。
Broadcom 和 Marvell 應該處於「客戶送樣」和「原型展示」階段,緊追在後。他們的產品何時大規模商用,將取決於主要超大規模資料中心客戶(如 Meta, Google, Microsoft, AWS)的導入時程。
3.2. Marvell “1 OU 102.4T CPO” design concept
Marvell在OCP展場上,靜態展示了TX9190 CPO交換器。只有1 OU高度,102.4T 的switch,是展會上最受矚目的展示之一。
核心規格和設計簡介:
總頻寬: 這是一台 1OU 高度 (1OU = 48mm vs. 1RU=44mm) 的交換器,可提供高達 102.4 Tbps(= 64 x 1.6T) 的前面板總頻寬
核心技術 (CPO): 它採用「共封裝光學」(CPO) 技術,將 Marvell Teralynx (TLX) 交換器晶片與 6.4T 的光學引擎 (Light Engine) 封裝在一起。
冷卻系統: 採用「液冷 + 氣冷」混合散熱。如圖所示,最核心的 TLX + CPO 區塊被一個大型的液冷冷板 (Coldplate) 覆蓋,而 ELSFP(External Laser SFP) 模組和 CPU 則由風扇進行氣冷
前面板介面: 前面板配置了 16 個 ELSFP和 64 個 SN-MT 連接埠(64x1.6T = 102.4T)
內部連接: 光訊號從 CPO 模組透過內部的光纖(Midplane fiber connectors 或 Senko mid-board connectors)連接到前面板。
管理: 系統使用一個 Portwell COM-E X86 模組進行控制
SN-MT(Senko Nano -Multi-fiber Termination)
SN-MT 是由 Senko公司開發的一種超高密度的光纖連接器。
極致的密度 (High Density):
這是它最大的優勢。如圖所示,SN-MT 的僅為 3.85 x 9.46 mm,而傳統 MPO 連接器為 8.2 x 12.4 mm。
它的密度是 MPO 的 2.7 倍 (= (8.2x12.4)/(3.85x9.46))
CPO 交換器的關鍵元件:
SN-MT 的超高密度是實現 1OU 102.4T CPO 交換器的關鍵。
正因為它體積如此之小,才能在 1 OU 的前面板上,塞入多達 64 個 SN-MT和16個標準的ELSFP。如果使用 MPO,是絕對不可能實現這種密度的。
挑戰
要將 CPO 交換器設計成 1OU的高度,其挑戰在於:
需要深厚的液冷專業知識 (Requires substantial liquid cooling expertise)
需要創新的光纖管理解決方案 (Requires innovative fiber management solutions),例如:在有限的空間內,處理MPC(Metallic PIC Connector,類似FAU功能)、面板 (face plate)、板中連接器 (mid-board connectors) 和光纖跳線 (fiber shuffles)
4. Others
4.1. CPX = CPC or CPO
Samtec CPX 方案的核心是將兩種技術整合到一個晶片封裝周圍:
CPC (CO-PACKAGED COPPER - 共封裝銅纜)
如圖中藍色模組所示。
用途: 專為「短距離」(Short Distances) 和「Scale-Up」(系統內擴展) 的連接而設計。
CPO (CO-PACKAGED OPTICS - 共封裝光學)
如圖中銀色模組所示。
用途: 專為「長距離」(Extended Reach) 和「Scale Out」(跨系統擴展) 的連接而設計。
Samtec 這方案的核心價值主張:
CPC 和 CPO 共用連接器介面:
Samtec 的 CPX 系統 展示了 CPC (藍色) 和 CPO (銀色) 模組可以混合搭配。
這表明它們的基礎 (ASIC 晶片這一側) 共享一個標準化的連接器插座(SI-FLY HD),主要是SerDes訊號。
TH6 Davisson 的模組化
右下角的 “TH6 Davisson CPO” 是一個整合式的 CPO 封裝
交換器晶片(如 TH6)可以被放置在一個基板上,周圍環繞的不是永久焊死的 CPO 模組,而是 Samtec 的
Si-FLY HD插座
靈活設計
一旦採用了 Samtec 的插座系統,系統設計者就可以獲得極大的靈活性。
可以根據需求,插入
CPC(共封裝銅纜) 模組來實現短距離、低功耗的「Scale-Up」連接也可以在同一個晶片上,插入
CPO(共封裝光學) 模組,來實現長距離的「Scale-Out」連接。
Samtec 正在推動一種模組化的共封裝生態系統,讓晶片(如 TH6 Davisson)不必在出廠時就綁定 CPO,而是可以讓客戶後續自由選擇要插上銅纜 (CPC) 還是光纖 (CPO)。這和目前FPP(Front Panel Plug)的生態相同。
4.2. e-Tube ( or Active RF Cable, ARC)
新創公司 Point 2 提出新方法,可取代Copper和Optical在Scale-up的應用。
目前的銅纜 (Copper) 和光纖 (Optical) 方案,都面臨限制 AI 運算在短距離、Terabit 等級規模擴展的障礙:
銅纜的懸崖 (The Copper Cliff):
太粗 (Too thick)
太短 (Too short)
無法擴展 (Not scalable)
光纖的代價 (The Optical Penalties):
太昂貴 (Too Expensive)
太耗電 (Too power hungry)
有可靠性問題 (Reliability Issues): 零件多,特別是Laser,造成整體MTBF下降。
有延遲 (Latency)
Point 2 提出了一種名為「1.6T OSFP Active RF Cable (ARC)」或「e-Tube」的全新主動式電纜。
技術原理: 它既不是用「電訊號」跑銅線,也不是用「光訊號」跑光纖,而是改用**「RF 射頻訊號」跑在新型的「塑膠波導管」**中。
關鍵組件:
e-Tube RF 晶片: 位於 OSFP 接頭內,是整合了「晶片上天線」(integrated On-Chip Antennae) 的發射/接收 SoC。
波導連接器 (Waveguide connector): 天線將 RF 訊號導入此連接器。
e-Tube 塑膠芯 (e-Tube Plastic Cores): 連接器再將 RF 訊號導入由 8或16 條「e-Tube 塑膠芯」組成的電纜束中進行傳輸。
以下是 e-Tube 主動式電纜 (1.6T) 與其他電纜技術 (DAC, ACC(Active Copper Cable), AEC, AOC(Active Optical Cable) ) 的比較:
電纜長度 ,能源效率 ,電纜價格 ,模組延遲
根據這份資料,e-Tube 的市場定位是作為 AEC 和 AOC的高效能替代品(< 10m)。它提供了超過 AEC 的長度、低於 AEC/AOC 的功耗、低於 AEC/AOC 的價格,以及幾乎為零的延遲。

































