EP25. UCIe Over Optics

Nov 19, 2025

前兩期介紹了微軟 Azure 光學互連分類的兩個方法，本次報告介紹另一方法，"Slow and Wide"，也是目前主流CPO多採用的方法，並且會以UCIe(Universal Chiplet Interconnect Express)開放標準為主，分享個人心得，歡迎討論。

1. 前提

1.1. Optical “Slow and Wide”

Microsoft Azure 的投影片將光學互連技術（Optical Technology）分為三個方法: EP23. 介紹了Fast and Narrow, 448G SerDes; EP24. 介紹了Slower and Wide, MicroLED Interconnect，這次介紹「Slow and Wide」

「Slow and Wide」 的核心策略是 「以多通道換取低功耗與低複雜度」：

不追求單通道極速（Slow）： 採用技術較成熟、主要採用簡單且省電的 NRZ 編碼，單通道速率維持在中等的 32G-128G，避開了高速 PAM4 的高功耗問題。
靠多波長堆疊頻寬（Wide）： 改用 4 到 16 個波長（甚至更多）並行傳輸(WDM,Wavelength Division Multiplexing)，透過增加通道數量來達成所需的總頻寬。
最大隱憂： 目前 缺乏統一標準（No standard），業界對於該採用哪種速率與波長的組合尚未達成共識，導致互通性不明。本次介紹UCIe Over Optics，應該會成為業界的標準。

1.2. 光電元件的發展

來自 Yole Group 的圖表將光電元件的發展路徑分為兩大類，並依據單波長傳輸速率（Speed per lambda）與材料技術進行了詳細分類:

Fast & Narrow: 拚速度、換材料

策略： 不斷提升「單波長」傳輸速率（從 200G 邁向 400G 以上）
代價： 傳統矽光子（SiPH）不敷使用，必須引入 TFLN（薄膜鈮酸鋰）、LNOI 或 InP 等昂貴的新材料 (參考 EP23. 448G SerDes)。
特徵： 性能極致，但成本最高（$$$）

Slow & Wide: 拚架構、走並行（Slow and Wide）

策略： 維持技術成熟且便宜的 100G/200G 速率，改用**「多通道並行」**
手段： 依賴 CPO（共同封裝光學） 和光中介層技術來提高整合度
特徵： 避開昂貴材料，主打低功耗與成本效益

這張圖表傳達了一個核心訊息：為了達成未來的高頻寬，光電產業界有兩條路可選。一是**「換材料」（用 TFLN/LNOI 拼單通道極速，但貴）；二是「換架構」**（用 CPO 走 Slow and Wide，用成熟材料拼多通道，省電且控制成本）。

1.3. Chiplet and 異質整合時代的到來

這張圖說明了半導體產業為何必須從單晶片（Monolithic）轉向 Chiplet（小晶片）與異質整合(Heterogeneous Integration)，其背後的驅動力三大關鍵因素:

突破物理尺寸限制 (Reticle Limit)： 曝光機的光罩面積上限約為 858 mm² (26 x 33 mm)。單晶片無法做得比這更大，唯有透過 Chiplet 拼接技術，才能製造出超過此面積的超級晶片(參考EP.11,12, 13)

優化成本與良率 (Cost & Efficiency)： 大尺寸晶片良率低且昂貴。將其切分成小晶片 (Chiplet) 可提升良率，並允許將昂貴的先進製程 (運算核心) 與便宜的成熟製程 (I/O) 混搭，大幅降低製造成本。

滿足 AI 極致效能 (AI Performance)： AI 運算需要海量電晶體 (邁向 1 萬億個) 與高速記憶體。異質整合透過先進封裝 (如 3DFabric) 將邏輯晶片與 HBM (高頻寬記憶體) 緊密連接，解決傳輸瓶頸，實現高效能運算。

令人驚訝，早在 60年前(1965)，高登·摩爾就預言了今天的發展：

預言內容： 他指出當製造單一大晶片變得不划算時，將系統拆解成**「較小的功能區塊」並「分開封裝互連」**會是更經濟的選擇。

完美對應： 這段話完全預告了現在的 Chiplet（小晶片）、先進封裝與 UCIe互連技術。

意義： 證明了異質整合併非背離摩爾定律，而是執行了摩爾 60 年前就預想好的「下半場策略」，用「分而治之」來延續效能成長與經濟效益。

2. UCIe(Universal Chiplet Interconnect Express)

2.1. 歷史:從分裂走向統一

起源 (2022年3月)： 由 Intel 發起並捐贈其 AIB (Advanced Interface Bus) 技術作為基礎，成立 UCIe 聯盟。

大一統 (巨頭集結)： 集結了 台積電 (TSMC)、AMD、日月光 (ASE)、Google、Microsoft 等半導體製造、設計與終端巨頭，正式結束了各廠私有協定互不相通的「戰國時代」。

演進 (快速迭代)： 短短兩年內從 1.0 (支援 2D/2.5D 封裝) 迅速演進至 2.0 (支援 3D 堆疊)，確立了其作為 Chiplet 開放生態系唯一通用標準的地位。

2.2. 核心應用

「將單晶片 (SoC) 解構，重組為封裝級系統 (SiP)」

具體體現在：

混搭組裝： 允許將不同廠商、不同製程的功能區塊（如 CPU、GPU、I/O），像堆積木一樣在封裝內組裝。
標準介面： 扮演 「封裝內部的 USB/PCIe」 角色，解決各家小晶片互不相通的問題，是實現 AI 高算力與異質整合的關鍵標準。

2.3. 分層架構 (Layered Architecture)

UCIe 1.0 架構採用類似網路通訊的分層設計，以確保互通性與彈性，主要包含三層：

協定層 (Protocol Layer)：

原生支援 PCIe 與 CXL 標準，確保軟體能「隨插即用」
支援 Streaming 協定，允許廠商自定義通訊方式

D2D 配接層 (Die-to-Die Adapter)：

負責資料傳輸的可靠度，處理錯誤檢查 (CRC) 與重傳 (Retry) 機制

實體層 (Physical Layer)：

負責實際的電氣訊號連接、時脈同步與線路修復 (Lane Repair)

特殊功能 (Raw Mode)：

允許資料跳過中間的配接層直接傳輸，以犧牲部分糾錯功能換取極低延遲。

2.4. 與封裝技術的關係

UCIe 與封裝技術的關係可以比喻為：「封裝是道路，UCIe 是交通規則」。UCIe 制定了統一標準，讓晶片能適應不同的道路狀況：

UCIe 1.0 (平面世界)：

UCIe-S 2D (標準封裝)： 使用一般基板傳輸，成本最低，適合大眾化應用。
UCIe-A 2.5D (先進封裝)： 使用矽中介層或矽橋接 (如 TSMC CoWoS; Intel EMIB)，提供高頻寬和高密度，是目前 AI 晶片的主流。

UCIe 2.0 (立體世界)：

UCIe-3D 3D (垂直堆疊)： 支援矽穿孔(Through Silicon Via,TSV)和混合鍵合 (Hybrid Bonding) 技術，實現晶片垂直堆疊，擁有最佳能效與最低延遲。

UCIe 也定義 Bump Map (凸塊排列圖) ，核心目的是實現「硬體層級的互通性」，確保不同廠商的晶片能精準物理對接：

2D/2.5D 策略 (固定海岸線)：

規定介面的總寬度 (Beachfront) 必須固定。即使未來微凸塊間距 (Pitch) 縮小，新舊製程晶片仍能透過相同的介面寬度互連，保障跨世代相容。

3D 策略 (高密度矩陣)：

針對垂直堆疊定義了鏡像對稱的訊號矩陣 (如 x80 模組)，支援極微小的間距 (如 9um)，以配合矽穿孔(Through Silicon Via, TSV) 和混合鍵合 (Hybrid Bonding, HB) 技術實現極致頻寬。

結論：

就像規定 PCIe 接頭的腳位一樣，UCIe 強制統一了晶片對接的物理地圖，讓「積木」能真正扣在一起。

2.5. PHY Spec

UCIe 實體層 (Physical Layer) 電氣特性簡述：

模組化架構 (Modular)：

以「模組」為單位，支援 1、2 或 4 個模組 組合，可依需求彈性擴充總頻寬。

訊號設計 (Signaling)：

資料 (Data)： 採 單端訊號 (SE)，以達成低功耗與節省面積。
時脈 (Clock)： 採 差分訊號 (Differential)，確保高速傳輸的穩定性。

效能規格 (Performance)：

速率： 支援 4 ~ 32 GT/s 多段速率，且必須向下相容。
頻寬： 先進封裝 (64 Lanes/模組) 的頻寬密度是 標準封裝 (16 Lanes/模組) 的 4 倍 (256 GB/s vs 64 GB/s)。

管理機制 (Management)：

配置獨立且 永遠開啟 (Always-on) 的 側頻帶 (Sideband) 通道 (800 MHz)，專責負責開機訓練、除錯與鏈路管理。

2.6. UCIe 3.0 關鍵指標

基於 UCIe 的規格定義，這三種封裝技術的差異可以用「維度」與「密度」來區分

2D 標準封裝 (Standard Package) —— 「經濟實惠的平面道路」

技術特徵： 使用傳統的有機基板 (Organic Substrate) 進行連線。
關鍵指標： 凸塊間距 (Bump Pitch) 較寬 (100-130 μm)，傳輸距離可長達 25 mm。
定位： 成本最低。適合對頻寬密度要求不高，但需要較長距離佈線或強調成本效益的晶片互連。

2.5D 先進封裝 (Advanced Package) —— 「高效能的高架快速道路」

技術特徵： 在基板與晶片之間加入中介層 (Interposer)、矽橋接 (Bridge) 或 高密度 RDL。
關鍵指標： 凸塊間距縮小至 25-55 μm，傳輸距離縮短至 2 mm。
定位： 頻寬密度高 (是 2D 的 10 倍以上)。這是目前 AI 晶片 (GPU + HBM) 的主流選擇，如 TSMC CoWoS 或 Intel EMIB。

3D 垂直封裝 (3D Integration) —— 「零距離的摩天大樓」

技術特徵： 使用 混合鍵合 (Hybrid Bonding) 技術，將晶片面對面直接堆疊，不使用傳統凸塊。
關鍵指標： 間距極微小 (< 10 μm)，擁有極致的頻寬密度 (是 2.5D 的數百倍) 與最低功耗。
定位： 極致效能。用於 SoC 內部的垂直摺疊 (如 AMD 3D V-Cache, TSMC SoIC-X)，實現幾乎無延遲的訊號傳輸。

總結：

從 2D -> 2.5D -> 3D，就是一條距離越來越短、密度越來越高、成本越來越貴的技術演進之路

2.7. Interconnect

2.7.1. In-Package Interconnect

這張 Benchmark 圖表確立了 UCIe 在互連技術中的王者地位，顯示其綜合效益(FOM) (頻寬密度 × 能效) 遠超傳統板級互連 (如 PCIe)：

UCIe-A (Advanced) - 效能頂點：

位於圖表最左上角，代表在極短距離內擁有最高頻寬密度與最佳能效，是專為 AI/HPC 極致算力打造的頂級規格 (需搭配先進封裝)。

UCIe-S (Standard) - 中堅主力：

位於 UCIe-A 下方，雖效能略低於 A，但仍比板級的 PCIe 強大 10~100 倍，是兼顧成本效益與高效能的標準選擇 (使用標準封裝)。

結論：

圖表證明了**「距離越短，效益越高」**的物理鐵律，UCIe 透過將互連搬進封裝內 (In-package)，達成了傳統技術無法企及的效能高度。

2.7.2. Off-Package Interconnect

這張投影片展示了 UCIe 如何透過 Retimer（重定時器） 突破原本「僅限封裝內部（In-package）」的物理距離限制，實現 Off-package（封裝外） 甚至 機櫃級（Rack-level） 的高速互連。

突破封裝邊界，實現晶片級光互連

延伸距離 (Off-package)： 原本僅限封裝內短距傳輸的 UCIe，透過 Retimer 進行訊號中繼與整形，可轉接至封裝外，通常與 光學元件 (Optical) 結合，實現長距離傳輸。
架構變革 (資源池化)： 藉此技術，CPU 可透過 CXL 協定 直接存取遠端機櫃的記憶體或加速器池 (Resource Pooling)，是實現未來 解構式伺服器 與 CPO (共同封裝光學) 資料中心的關鍵介面。
結論： Retimer 讓 UCIe 從「小晶片介面」升級為「機櫃級光互連入口」。

3. AyarLabs solutions

3.1. UCIe Optical Retimer

Ayar Labs TeraPHY™ 是全球首款實作 UCIe 光學重定時器 (Optical Retimer) 的小晶片，是將「電訊號轉為光訊號」的關鍵橋樑。

其核心亮點簡述如下：

光學橋樑 (Optical Gateway)： 它扮演翻譯官的角色。一端透過 UCIe 介面 與主運算晶片 (如 CPU/GPU) 溝通，另一端則將訊號轉換為 光訊號 透過光纖傳輸，實現晶片對外的超高速互連。

微環技術 (Microring & DWDM)： 採用獨家的微環諧振器技術，並結合 16 波長 DWDM (在一條光纖中傳送 16 個頻色)。這完美體現了 “Wide” (多通道並行) 的設計哲學，在極小的晶片面積上實現 8 Tbps 的雙向頻寬。

UCIe-S 的最佳範例： 作為 Retimer，它通常採用 UCIe-S (標準封裝) 規格。利用 UCIe-S 支援較長傳輸距離 (25mm) 的特性，將怕熱的Laser光學元件擺在封裝邊緣，遠離高熱的運算核心，巧妙解決了 「光學怕熱」 的物理難題。

3.2. UCIe Over Optics應用

以光代銅，解開散熱與距離的死結

技術創新 (光電分離)： 透過 UCIe 介面連接光學小晶片 (TeraPHY)，並將最怕熱的雷射光源 (SuperNova) 獨立外置，完美解決了在封裝內整合光學元件的散熱難題

架構變革 (分散部署)： 利用光纖的長距離傳輸能力，打破銅線 (DAC) 的距離限制。將原本必須擠在單一機櫃的 600KW 高熱叢集，分散部署到多個 100KW 的機櫃中，大幅降低了資料中心的冷卻與供電壓力。

3.3. TeraPHY 介紹

3.3.1. 架構組織

這張圖解構了 Ayar Labs 光學小晶片的內部設計，其特點為：

大頻寬入口 (UCIe-S)： 利用 4個UCIe 標準封裝 的四模組(Quad)介面 (這是 UCIe 規範的最大組合)，總共16(= 4x4)個模組，接收來自 ASIC 的海量電氣訊號。

低延遲核心 (Raw Mode)： 採用 Streaming Raw Mode，可跳過冗餘協定層，確保訊號以最低延遲進行光電轉換。

光電引擎層 (8T + MCU)： 內建 8 個 1Tbps Optical I/O Port(O/E: 光電引擎 )，且每個通道配有獨立 MCU 進行智慧校準，總雙向頻寬達 8 Tbps(= 8x1T)

物理對接： 透過底部的 2組 12-Fiber V-groove 陣列直接連接外部光纖

3.3.2. UCIe-S Quad(4 Modules)

「利用 4 個標準模組並行，打造平價的高速公路」

具體定義如下：

“S” (Standard Package)：代表採用標準封裝（2D 有機基板）

特徵： 凸塊間距較寬 (Slide 中為 123 μm)，BW density 僅為0.896Tbps/mm(< 1Tbps/mm)，但成本比 CoWoS 低廉許多，技術成熟。

“Quad” (四模組配置)：代表將 4 個 UCIe 模組捆綁成一個邏輯連結 (Link)

通道： 1 個標準模組有 16 條通道，每個通道的速度為16Gbps，Quad 配置則擁有 64 條 (16 x 4) 通道。

頻寬效益 :

單一模組雙向頻寬為 512 Gbps( = 2x16x16Gbps)
Quad (4 模組) 的總頻寬可達 2 Tbps( =4x512Gbps)

3.3.3. Retimer Protocol Logic

Retimer Protocol Logic 是將標準 UCIe 電訊號轉換為 1T 光學訊號的控制中樞

其運作核心簡述如下：

電光轉換與變速 (Translation & Gearbox)：

扮演 SerDes lite 的角色，透過 2:1 Gearbox (變速箱) 機制，將寬並行的 UCIe-S 電子訊號，轉換並匹配至高速的光學傳輸介面。
速率轉換： 將 2 條 UCIe 電氣通道 (各 16 Gbps) 合併，驅動 1 個 光波長 (Lambda)，使其速率達到 32 Gbps
設計策略 (Slow and Wide):
- 電氣端： 維持 16 Gbps 低速，以適應低成本的標準封裝
- 光學端： 32 Gbps 屬於光通訊的甜蜜點，可使用簡單省電的 NRZ 調變，無需昂貴的 DSP

模組聚合與同步 (Aggregation)：

利用 MMPL(Multi-Module Physical Layer)同步技術，將 4 個獨立的 UCIe 模組「黏」在一起，協同驅動雙埠光纖介面，達成 1 Tbps 的總頻寬。

極致效率 (Efficiency)：

內建 FIFO 處理時脈誤差 (PPM offset) 補償，且轉換過程僅消耗 ~1.5% 的頻寬 (Overhead)，確保資料傳輸的低延遲與最大吞吐量

3.3.4. 1T Optical I/O Port(O/E)

Ayar Labs 1T 光學 I/O 埠架構簡述：

這是實現 電訊號 ↔ 光訊號 物理轉換的核心引擎，具備三大特點：

1T 頻寬規格：

配置 16 TX + 16 RX 通道，每通道採用 32 Gbps NRZ 調變，透過多通道並行達成 1024 Gbps (1 Tbps) 的雙向總頻寬。

微環技術核心：

利用 微環諧振器 (Microring Resonators) 進行光訊號的寫入 (TX) 與讀取 (RX)，實現高密度的 DWDM 傳輸。(請參考EP14. SiPH MRM介紹)

優化設計 (能效與穩定)：

省電架構： 每 4 個通道共用一組 PLL 與時脈電路，降低功耗
穩定管理： 內建 偏振管理 (Polarization Mgmt.) 以支援標準光纖，並配置 MCU 進行即時校準與溫控，確保光學元件在最佳狀態運作。

結論：

這是將 “Slow and Wide” 策略物理實現的關鍵模組，用低速並行的 NRZ 訊號換取高效穩定的 1T 光互連。

3.3.5. 2x12-Fiber V-groove Array

Ayar Labs 光纖介面配置簡述：

2 組 12 芯 V 型槽陣列 (2x12 V-groove Array) 共提供 24 根光纖，精準支援 8 個 1T 光學埠 的運作，其分配邏輯如下：

總量分配：

每個光學埠 (Port) 需使用 3 根光纖，因此 8 個埠 x 3 根 = 24 根光纖，完美對應物理接口數量。

單埠光纖功能 (1+1+1)：

1 根雷射輸入 (Laser In)： 引入外部 SuperNova 的光源 (供光)
1 根資料發送 (TX)： 輸出光訊號
1 根資料接收 (RX)： 輸入光訊號

結論：

透過精密的 3 根一組 配置，實現了外置光源供電與雙向高速傳輸的完整光路

4. 結語

雖然Ayar Labs TeraPHY™ 宣稱是全球首款實作 UCIe 光學重定時器 (Optical Retimer) 的小晶片，但另一家新創Lightmatter，他們的 L200在技術層面上，確實是超越 TeraPHY 的 UCIe 光學 retimer另一個解決方案，請參考Lightmatter官網資料:

TeraPHY和L200的差異在於規模與速度的級別完全不同:

總頻寬 (4倍差異)：Lightmatter L200 提供高達 32 Tbps 的巨量頻寬，而 Ayar Labs TeraPHY 8T 為 8 Tbps (比較 Nvidia NVL5: 14.4Tbps)

速度 (3倍與1.5倍)：L200 的電氣入口速率快 3 倍 (48Gbps/lane 對 16Gbps/lane)，光學出口速率快 1.5 倍 (50G對 32G)

物理規模 (2.5倍)：L200 動用了 2.5 倍的波長通道數 (320 對 128) 和光纖數量 (20 對 8) 來達成目標。

產品定位：Ayar Labs 走的是**「高能效的標準化元件」路線；Lightmatter 走的是「極致堆疊的高密度平台」**路線(1.5Tbps/mm)

這兩家新創的核心價值，都在於證明了「標準 UCIe over Optics」是打破 AI Scale-up 物理瓶頸的黃金路徑。

具體而言，就是確立以下的新典範：

釋放運算核心： 讓昂貴的 AI 晶片只需輸出「寬且慢 (Wide & Slow)」的標準 UCIe 電訊號（低功耗、易設計），是系統架構的最優解，不再讓運算晶片被高速 SerDes 的物理極限綁架。

解構傳輸距離： 利用光通訊徹底消除銅線的距離與功耗限制，讓 AI Scale-up叢集不再受限於機櫃內的範圍。

建立工業標準： 讓 UCIe over Optics 成為像 PCIe 一樣可信賴的工業標準，實現 AI 算力資源的無縫池化與無限擴展。

5. 補充說明

5.1. L200光學引擎的總頻寬32Tbps推導說明

總頻寬與通道計算

總頻寬 (Total Bandwidth): 規格標示 32 Tbps。這是雙向加總，也就是發送 (Tx) 16 Tbps + 接收 (Rx) 16 Tbps
通道數計算: 單通道有效頻寬為 50 Gbps (對應規格中的 56 Gbps NRZ，扣除編碼開銷)。
- 計算式：16 Tbps / 50 Gbps = 320 Lanes (通道)。
- 這與圖片中 EIC 提供的 “320 High Speed SerDes” 數據完全吻合(沒有像TeraPHY做2:1 Gearbox)

電氣層介面

EIC 功能: 來自AlphaWave 的晶片擔任 UCIe-S Retimer，SerDes Lite的轉換，並包含驅動 L200 光子晶片 (PIC) 的 Driver/TIA。
通道分組: 320 個 SerDes 通道來自 320 個 UCIe-S 通道。
模組配置: 320 通道分為 20 個模組，每個模組 16 通道 (x16)。物理上可能是 5 個 Quad-Modules (由 4 個小模組組成)，即 5 * 4 * 16 = 320。
Data Rate 轉換: UCIe-S的data rate = 48Gbps; Retimer處理後為50Gbps(SerDes-Lite, OH = 4.2%)
頻寬驗證: 320 * 50 Gbps = 16,000 Gbps = 16 Tbps (單向)

光纖總數計算

波長分配: 320 個通道驅動 320 個波長 (lambda)。每根光纖承載 16 個不同波長
訊號光纖數: 320 / 16 = 20 根光纖
總光纖數組成 (3:1 架構):
- 發送光纖 (Tx Fibers): 20 根 (承載 16 Tbps 輸出)。
- 接收光纖 (Rx Fibers): 20 根 (承載 16 Tbps 輸入)。
- 雷射光源光纖 (External Laser Source, ELS): 20 根 (為矽光子晶片提供外部光源)
總和: 20 (Tx) + 20 (Rx) + 20 (ELS) = 60 Total Fibers

總結表

單通道速率: 50 Gbps (56G NRZ)
總通道數 (Lanes): 320 (源自 EIC SerDes)
總頻寬: 32 Tbps (雙向)
波長分波: 每根光纖 16 波長
光纖總數: 60 (含 Tx, Rx, 以及外部雷射輸入)
介面: UCIe-S (Die-to-Die 連接)

5.2. L200 BW density > 1.5Tbps/mm 說明

EIC is from Alphawave, followed UCIe-S:

與AyarLabs TeraPHY比較:

關於 L200 Optical Engine 架構分析的簡述：

核心規格: L200 為 32 Tbps 雙向 (BiDi) 矽光子引擎，採用 56G NRZ 調變技術。
電氣介面: 使用 AlphaWave EIC 方案，透過 320 個 UCIe-S 通道 (每通道有效 48Gbps) 進行 Die-to-Die 連接與 Retimer 功能。
光路架構: 採用 16 波長 (WDM) 分波多工。光纖配置為 3:1 架構，總計 60 根光纖 (20 Tx + 20 Rx + 20 外部雷射輸入)。
頻寬密度: 相比 AyarLabs (TeraPHY) 的 16Gbps 速率，L200 因單通道速率提升 3 倍 (至 48Gbps+)，其頻寬密度 (BW Density) 估算可達 2.6 Tbps/mm 以上，證明大於 1.5 Tbps/mm 的設計完全可行。

Ted Yu

Discussion about this post

Ready for more?