EP29. PCIe 7.0 Update

Jan 02, 2026

最近看到介紹PCIe 7.0的文章，剛好手邊也有些資料，整理一下知識，分享個人心得，歡迎討論。

1. Background

1.1. PCIe發展

PCI 匯流排是PCIe前身，於 2000 年代初期，由於 3D 遊戲圖形卡、Gigabit 乙太網路與高清多媒體 的頻寬需求激增，導致採用「並列傳輸 (Parallel)」與「共享頻寬」的 PCI 匯流排，因物理上的時脈偏移 (Clock Skew) 難以同步，加上嚴重的串音干擾，最終撞上了頻率天花板。

為了突破此物理極限，業界才轉向 SerDes (串列器) 技術，將架構徹底改為「點對點串列傳輸」的 PCIe，利用嵌入式時脈解決同步難題，這項為了應付當時多媒體吞吐量而做的底層革命，恰好提供了極佳的擴展性，才為二十年後海量數據的運算奠定了傳輸基石。

Source: Keysight

PCIe 的發展可以簡述為以下三個關鍵趨勢：

速度呈倍數增長：

從 2003 年 PCIe 1.0 的 2.5 GT/s 起步，每一代的速度大致翻倍，直到預計 2024-2027 年推出的 PCIe 7.0，速度將達到 128 GT/s。

技術迭代加速：

圖中指出代與代之間的更新間隔縮短了 1/3，特別是從 2017 年 (4.0) 到 2019 年 (5.0) 再到 2022 年 (6.0)，顯示創新步伐正在加快

複雜度與編碼變革：

隨著速度提升，技術複雜度和測量挑戰也隨之增加。PCIe 6.0 和 7.0 的波形從原本單一的眼睛（NRZ 編碼）變成了三個堆疊的眼睛（PAM4 編碼），這是為了在高頻下維持頻寬成長所採用的新技術。

1.2. PCIe的規格文件

PCIe 三大核心規範文件的定位與用途，呈現從「理論設計」到「產品實作」再到「驗證」的流程：

Base Specification (基礎規範)：

定位： 技術核心與理論基礎。
用途： 包含完整的系統知識，直接應用於晶片 (Chip) 層級的設計與測試。
受眾： IC 設計與 IP 開發者。

CEM Specification (卡類機電規範)：

定位： 產品實作標準。
用途： 定義機構尺寸、連接器與電力規範，適用於開發介面卡 (Add-in cards) 與主機板 (Motherboards)。
受眾： 系統廠、板廠硬體工程師。

PHY Test Specification (實體層測試規範)：

定位： 驗收與認證標準。
用途： 詳細定義針對 CEM 規範的相容性測試 (Compliance Tests) 步驟與標準。
受眾： 測試工程師與認證實驗室。

先由 Base Spec 定義晶片怎麼做，再由 CEM Spec 定義板卡怎麼造，最後用 Test Spec 來驗證產品的合規性 (Compliance)。

目前PCIe 7.0 的晶片規範已經 ready(2025 Jun.)，但系統硬體設計與測試驗證的標準還在「施工中」

1.3. PCIe架構

PCIe 採用類似網路 OSI 模型的分層架構 (Layering)，其核心設計哲學是模組化，確保底層硬體升級（如速度翻倍）時，上層軟體完全不用修改。

軟體層 (Software)

向下相容： 維持與舊式 PCI匯流排 完全相同的驅動程式模型 (Driver Model) 與配置空間，讓作業系統無縫接軌。

交易層 (Transaction)

運籌帷幄： 負責建立封包 (TLP,Transaction Layer Packet)。採用 Split-transaction 機制（發送請求後不需原地等待回應）以及 Credit-based 流量控制（確認對方有空間才發送），大幅提升匯流排效率。

資料鏈結層 (Data Link)

數據保全： 負責確保點對點傳輸的可靠性。透過CRC 校驗、Ack/Nak 確認機制以及錯誤重傳 (Retry)，保證資料正確。

實體層 (Physical - Logical & Electrical)

硬體實作： 負責底層訊號處理。包含邏輯子層（負責鏈路初始化與維護）以及電氣子層（處理實際的電壓與類比訊號交換）。

機構層 (Mechanical)

外觀形式： 定義插槽、板卡尺寸等物理規格。

1.4. PCIe 7.0 關鍵指標 (Key Metrics)

對於系統設計者來說，PCIe 7.0 的核心訊息是：「要在頻寬翻倍的同時，死守低延遲與高可靠度。」這與乙太網路 (Networking) 的發展路徑有顯著不同。

速度與調變 (Data Rate)

128 GT/s (PAM4)： 延續 PCIe 6.0 的 PAM4 調變技術，再次將每條通道的頻寬翻倍。

延遲 (Latency) —— 最艱鉅的挑戰

這點是 PCIe 7.0 與 800G 乙太網路最大的分水嶺：

拒絕高延遲 FEC：PCIe 無法負擔像網路通訊那樣高達 100ns 的 FEC (前向糾錯) 延遲。
嚴苛指標： 即使加上了 FEC，發送端 + 接收端的延遲增量 (Adder) 必須控制在 <10ns (相較於 32 GT/s 的 PCIe 5.0)。這意味著必須使用極輕量級的 FEC 演算法。

傳輸距離與拓撲 (Channel Reach)

物理極限的妥協： 由於頻率太高，PCB 傳輸損耗極大，單靠板材已難以維持長距離傳輸。
Retimer 數量倍增： 為了延伸訊號距離，規範允許的 Retimer (重計時器) 串接數量上限從原本的 2 顆增加到了 4 顆 (maximum 2 -> 4)。這直接增加了系統設計的成本與複雜度。

效率與可靠度 (Efficiency & Reliability)

頻寬效率： 儘管引入了複雜的 PAM4 和 Flit 編碼，協議開銷 (Overhead) 造成的頻寬損失被限制在 <2% (相較於 PCIe 5.0)。
超高可靠度 (FIT)： 要求 FIT (Failure In Time) << 1，即在 10 億小時內的故障數遠小於 1，這對伺服器等級的穩定性至關重要。

總結

PCIe 7.0 的目標是在維持 PCIe 6.0 架構的基礎上，透過更強的訊號處理與更多的 Retimer 輔助，將速度推向 128 GT/s，同時嚴格限制延遲以滿足 CPU/GPU 記憶體存取的需求。

1.5. FLIT (Flow Control Unit) 編碼模式

過去 PCIe (Gen 1-5) 的資料傳輸是「變動長度」的封包，但為了適應 PAM4 高誤碼率環境下必須使用的 FEC (前向糾錯)，PCIe 6.0/7.0必須改用「固定長度」的容器來傳輸，這個容器就是 FLIT編碼模式。FLIT (Flow Control Unit) 主要位於 實體層 (Physical Layer) 的 邏輯子層 (Logical PHY)。

結構：256 Byte

為了配合 FEC 演算法運作，FLIT 採用固定的大小，其內部配置極為精實：

TLP (236 Bytes)： 資料載荷區。不管是大封包還是小封包，統統裝進這裡，空間利用率極高。
DLP (6 Bytes)： 鏈路管理區。負責傳遞 Ack/Nak 與流量控制 (Credits) 資訊。
CRC (8 Bytes)： 偵測區。負責抓錯，保證能偵測到任何小於 8 Bytes 的數據損毀。
FEC (6 Bytes)： 修復區。採用三路交錯設計，每組可修正 1 Byte 的錯誤。

目的：低延遲糾錯

簡單高效： 使用簡單的 FEC 編碼/解碼邏輯，目的是為了達到低延遲 (Low Latency) 並減少晶片面積。
固定模式： 一旦鏈路啟用 FLIT 模式，即使降速運作也會繼續使用此格式，不會切換回舊模式。

運作邏輯

資料收到後，先由 FEC 修正，再由 CRC 偵測。如果 CRC 發現 FEC 修不好（或修壞了），則直接要求 Retry (重傳)。

將重傳機制 (Retry) 下沉至 PHY/Link Layer 是效率最高的做法。相比之下，Ethernet 若依賴上層軟體進行端對端重傳，將產生毫秒級的來回延遲，導致 GPU 因等待數據同步而閒置。

因此，UEC (Ultra Ethernet Consortium) 採用硬體級的 LLR (Link Level Retry) 機制，和PCIe 6.0/7.0類似，直接利用底層晶片進行重傳，避免整條傳輸路徑的頻寬浪費，滿足「無損」且低延遲的傳輸品質。

1.6. 挑戰

PCIe 7.0 面臨的挑戰是「在物理極限下，強行兼顧速度、延遲與成本」的三難局面。

Channel Loss Budget

極致損耗： 128 GT/s 的奈奎斯特頻率高達 32 GHz，但端對端損耗預算僅給了 -36 dB。
昂貴代價： 為了達標，PCB 板材損耗被嚴格限制在 < 1.0 dB/in @ 32 GHz。這意味著必須全面捨棄常規材料，改用極昂貴的超低損耗 (Ultra-low loss) 板材(參考EP10. 3. CCL的介紹)。

延遲的要求(Latency Constraint)

既要糾錯又要快： PAM4 訊號脆弱必須依賴 FEC (前向糾錯)，但 PCIe 無法像乙太網路那樣容忍 100ns 的延遲。
<10ns 要求： 規範強硬要求 FEC 加總延遲必須控制在 < 10ns，這對晶片邏輯設計是極限挑戰。

系統的Complexity

Retimer 暴增： 單靠銅線傳不遠，為了延伸距離，規範允許串接的 Retimer (重計時器) 上限翻倍至 4 顆。這直接導致系統功耗、散熱與 BOM 成本大幅上升。

2. TX Test Update

當 PCIe 從 Gen 5 (NRZ) 跨入PCIe 6/7 (PAM4) 時，TX（發送端）測試面臨的典範轉移。因為 PAM4 將電壓切成四份，導致眼高 (Eye Height) 劇縮，以前在 NRZ 時代可以被容忍的微小非線性失真，在 PAM4 眼高被壓縮至僅剩 <7mV 的情況下，都會變成致命傷。

TX 測試新增的三大關鍵指標：

SNDR (Signal-to-Noise-and-Distortion Ratio)

定義： 訊號雜訊失真比。
目的： 這是衡量訊號「純淨度」的綜合指標。
原因： 以前 NRZ 時代只看 SNR (訊號雜訊比)。但在 PAM4，眼圖極小，必須把非線性失真 (Distortion) 與 串擾 (Crosstalk) 全部加進雜訊項一起計算。如果 SNDR 太低，代表波形太髒，接收端一定解不出來。

RLM (Ratio of Level Mismatch - Linearity)

定義： 電位準線性度 (Linearity)。
目的： 檢查 0, 1, 2, 3 四個電壓階梯是否「等高」。
原因： RLM 是衡量 PAM4 四個電位準（0, 1, 2, 3）間距是否均勻的關鍵指標。理想情況下，這三個眼睛的張開程度應一致。如果 TX 晶片的 DAC 線性度不好 (RLM 差)，會導致中間的眼睛被擠壓或變形，大幅增加誤碼率。

48-Edge Jitter (UTJ, UDJDD)

定義： 涵蓋所有轉換組合的抖動測量。
目的： 捕捉 PAM4 所有可能的轉換路徑 (Slew Rate) 對時間抖動的影響。
原因： NRZ 只有單純的 0↔1 轉換。PAM4 有 12 種不同的轉換路徑 (如 0→1, 0→3, 2→1 等)，每種斜率都不同。「48-Edge」方法能確保測量到最壞情況下的 不相關總抖動 (UTJ) (12種轉換類型 x 4次取樣 = 48 Edges)。

SNDR 與 RLM 決定了眼圖在垂直電壓軸的張開程度 (Eye Height)，而 Jitter 則決定了水平時間軸的有效寬度 (Eye Width)。

2.1 SNDR (Signal-to-Noise-and-Distortion Ratio)

核心定義：SNDR 公式

SNDR 的物理意義是**「訊號強度」除以「雜訊與失真的總和」**。根據圖片中的公式演進：

在最新的規範中 (ECN new SNDR equation)，分子（訊號）的計算方式變得更嚴謹：

註: 測試規範必須拆分 Even/Odd 摘要如下:

架構機制 (DDR/Half-rate)為了降低電路頻率，TX 採用半速率時脈。

Rising Edge (正緣) 觸發: 輸出 Even bits ( p_E )
Falling Edge (負緣) 觸發:輸出 Odd bits ( p_O)

DCD(Duty Cycle Distortion)

正緣與負緣的物理電路路徑不同，極易產生 DCD (佔空比失真) 或 驅動振幅不一致，導致偶數與奇數的波形長得不一樣。

三大組成要素詳解

這張圖解釋了公式中三個變數 σ_e、σ_n 與 Pulse Response 的來源：

A. 訊號 (Signal) - 從P_max 進化為 Pulse Response

舊方法： 只看 P_max(最大脈衝峰值)。
新方法： 使用 線性擬合脈衝響應 (Linear fit pulse response, p(k) 的平方和。
為什麼要改？ 圖片指出，新方法考慮了偶數 (Even) 和奇數 (Odd) 符號的響應總和，對於高損耗通道 (Lossy channels) 來說，比單純看峰值P_max 更具一致性與代表性。

B. 失真 (Distortion) - σ_e (Sigma-e)

定義： 這是指訊號偏離「理想線性波形」的程度。
測量方式： 它是利用上述的線性擬合脈衝響應，計算出測量到的波形與理想波形之間的誤差。這主要捕捉的是非線性 (Non-linearity) 和 ISI (符號間干擾)。
限制： 只在 Compliance Pattern (合規測試圖樣) 中的 PRBS (隨機碼) 區段進行計算。

C. 雜訊 (Noise) - σ_n (Sigma-n)

定義： 純粹的隨機雜訊。
測量方式： 測量特定的直流電平區段（Symbol #61），重複測量 250 次來計算變異數。
處理： 計算時會對每個電平取平均，並套用雜訊補償 (Noise compensation)。

為什麼 SNDR 這麼重要？

眼圖太小： 如前一張圖所述，PAM4 的眼高 < 7mV。
失真是殺手： 在 NRZ 時代，我們主要擔心隨機雜訊 (Noise)。但在 PAM4，因為有 4 個電位準，晶片的線性度 (Linearity) 只要稍差，或者通道反射造成 ISI，就會產生巨大的失真 (Distortion)。
總結： SNDR 是一個「照妖鏡」，它強迫 TX 設計者不僅要降低雜訊，還必須保證輸出的波形在數學上是非常線性的。

2.2 RLM(Ratio of Level Mismatch - Linearity)

RLM是衡量 PAM4 發送端 (TX) 「線性度 (Linearity)」 的關鍵指標:

核心定義

RLM 檢查的是 PAM4 四個電壓階梯 (V₀V₁V₂V₃) 的間距是否均勻。

理想狀況： 0→1、1→2、2→3 的電壓高度差應該要一模一樣（如圖右上角 “Good Linearity” 所示，三個眼睛一樣大）。
糟糕狀況： 如果發送晶片的 DAC 線性度不好，中間的階梯可能會被壓縮（如圖右上角 “Poor Linearity” 所示，中間的眼睛被壓扁，導致誤碼率暴增）。

測量與計算邏輯

RLM 的計算不再單純依靠示波器的直方圖，而是基於 Linear Fit Pulse Response (線性擬合脈衝響應) 來提取穩定的電壓位準。這和SNDR用的方法相同，計算步驟概念如下：

抓出四個電位： 確定 V₀V₁V₂V₃ 的電壓值。
找中心點： 計算總擺幅的中間值 V_mid= (V₀+V₃)/2。
比對誤差： 計算實際的中間電位 (V₀ ,V₂) 與理想位置的偏差比例 (ES₁, ES₂)。
取最差值： 公式R_LM= min(…) 會從所有可能的誤差組合中挑出**「最差的那個」**作為最終分數。

合規標準

RLM ≥ 95.0%： 這是 PCIe 6.0/7.0 的高標要求。這意味著 TX 輸出的四個電壓階梯，其均勻度必須達到 95% 以上的完美程度，幾乎不允許有忽大忽小的情況。
RLM 用來確保 PAM4 的「三個眼睛」張開得一樣大；如果 RLM 太低，代表某一兩個眼睛被擠壓，訊號品質就會崩潰。

2.3 48-Edge Jitter

這是一個針對 PAM4 多電平特性所設計的「地毯式」抖動分析:

1. 為什麼是 “48-Edge”？

在過去的 NRZ (PCIe 5.0) 時代，訊號只有 0 和 1，轉場單純。但在 PAM4 架構下，電壓有 4 個階梯 (0, 1, 2, 3)，這導致了12 種不同的轉換斜率 (Slew Rate)，12種轉換類型 x 4次取樣 = 48 Edges。

多樣的轉場： 從 0->1 的速度，跟 0->3 的速度是不一樣的；上升緣 (Rising) 和下降緣 (Falling) 的特性也不同。
特定的測試圖樣： 規範定義了一個長度為 52 UI (Unit Interval) 的重複測試圖樣 (Pattern)。在這個 52 UI 的序列中，包含了4 次12 種不同的轉換，和4 次電位不變 (Self-transition)。
全面檢測： 48-Edge Jitter 的精神就是「不放過任何一種轉場可能性」，它會單獨測量這 48 個邊緣的抖動，確保所有類型的轉換都符合規範。

2. 測量流程與方法

根據投影片的左側表格與說明，測量步驟如下：

捕捉與解碼 (Capture & Decode)：
示波器必須先鎖定訊號，利用 Protocol Decode 技術找到那個特定的 52 UI 重複圖樣，確認待測物 (DUT) 發出的圖樣無誤。
個別計算 (Individual Calculation)：
系統會針對表格中列出的 Edge #0 到 Edge #47，逐一計算每個邊緣的抖動數據 (包含 UDJDD, RJ, UTJ)。
平均化 (Averaging)：
最後的合規結果 (Compliance Result) 並不是看單一點，而是將這 48 個邊緣的結果取平均值 (Average of all Jitter Results)，得出最終的 TTX-UTJ (總抖動)。

3. 關鍵技術特徵

與乙太網路不同：
投影片特別註明，PCIe 採用的方法與 IEEE 802.3 (乙太網路) 的 JNU Jitter 不同。PCIe 使用的是 “Dual-direct jitter extrapolation” (雙向直接抖動外推法)。
雜訊補償 (Noise Compensation)：
由於 PAM4 訊號太小，示波器本身的雜訊會嚴重干擾測量。測試規範允許扣除儀器底噪。圖中顯示，在套用雜訊補償後，測得的 RMS 抖動值 (J_rms) 大幅降低了 24%，這對通過測試至關重要。

48-Edge Jitter 是一套針對特定 52 UI 圖樣中所有 48 個關鍵轉換點進行獨立測量並取平均的嚴格測試，目的是為了在 PAM4 複雜的電壓切換環境下，精確抓出與轉換斜率相關的時序誤差(請參考EP28. Jitter)。

3. RX Update

3.1. ADC-based DSP

PCIe 7.0 在接收端 (RX) 架構上發生的典範轉移 (Paradigm Shift)：從傳統的混合訊號處理轉向了基於 ADC/DSP 的數位處理。

PCIe 6.0 及以前：Mixed-Mode (CTLE + Heavy DFE)

架構特徵： 主要依賴類比電路與混合訊號邏輯。
策略： 使用 CTLE 進行初步高頻補償，然後依賴高達 16-tap DFE (判決回授等化器) 來消除長距離的反射與 ISI (符號間干擾)。
瓶頸： DFE 的回授迴路有嚴格的時序限制 (Timing Closure)，在類比域要做超過 16 個 tap 非常困難且耗電。

PCIe 7.0：ADC-based DSP (Heavy FFE + Light DFE)

架構特徵： 引入 ADC (類比數位轉換器)，先將高速訊號數位化，再用 DSP 運算。
策略： 重點轉移至 29-tap FFE (前饋等化器)。
- FFE 是純數位濾波器，能處理極複雜的通道響應。
- 因為 FFE 已經把大部分的 ISI (包含 Pre-cursor 和 Post-cursor) 處理掉了，DFE 被大幅削減至僅剩 1-tap，只負責處理最貼近的一個 bit 的干擾。
優勢： 數位化的 FFE 不受類比時序限制，能輕鬆實現長距離的等化 (29 taps)，這是應對 128 GT/s 高損耗通道的唯一解法。

一句話總結： PCIe 7.0 放棄了「用大量 DFE 硬扛」的傳統類比做法，改用 ADC + 數位 FFE 的 DSP 架構來數學重建訊號，僅留 1-tap DFE 收尾。

理想模型 vs. 工程現實

PCIe 6.0 Reference Design (標準規範) 它只是定義互通性的行為模型 (Behavioral Model)。為了數學描述方便，它沿用了 Mixed-Mode (CTLE + DFE) 的語言，要求晶片達到某個及格線。
Implementation (廠商實作) 面對 PCIe 6.0(PAM4) 的高難度考題，純類比 (Mixed-Mode) 實作極難收斂。 Astera/Marvell/Broadcom 等廠商可能直接用 ADC + DSP (數位解法)，以強大的算力來「模擬並超越」那個類比模型的標準。

3.2. 與Ethernet RX 比較

雖然 PCIe 7.0 終於跟隨 Ethernet 進入了 ADC/DSP 架構，但因為 「<10ns Latency」 這個緊箍咒，兩者在 DSP 內部的演算法選擇上產生了本質的分歧。

為什麼 PCIe 7.0 選擇 "Heavy FFE + 1-tap DFE"？

PCIe 必須避免 DFE 造成的 Burst Errors (突發錯誤)，這正是 PCIe 7.0 架構設計的核心考量。

Ethernet 的做法 (Heavy DFE)： Ethernet 有強大的 RS-FEC (如 RS(544,514))，所以不怕 DFE 判錯導致的 Burst Error (一錯錯一串) -> 所以敢用 Heavy DFE。
PCIe 的困境 (Lite FEC)： PCIe 的 FEC 只有極短的糾錯能力 (為了低延遲)。一旦 DFE 第一個 bit 判錯，回授機制會導致後面一串 bit 全部錯（Error Propagation），這會直接穿透 Lite FEC，CRC 偵測而導致 Replay。
PCIe 7.0 的解法： 正如上一張圖所示，PCIe 7.0 極端地強化 FFE (29 taps) 而將 DFE 砍到只剩 1 tap。
- FFE 優勢： 前饋 (Feed-forward) 沒有回授迴路，不會產生 Burst Error。
- 1-tap DFE： 只處理最近的一個反射，將錯誤擴散風險降到最低。

關於 PCIe 8.0 (256 GT/s) 與 MLSD 的矛盾

如上圖，Ethernet 200G/lane 導入 MLSD (Maximum Likelihood Sequence Detection) 是為了在極低 SNR 下救回訊號(請參考EP23. 448G SerDes)，但這對 PCIe 8.0 來說是一個巨大的難題：

MLSD 的本質是「延遲換取準確度」： MLSD (如 Viterbi 演算法) 必須觀察「一整串序列 (Sequence)」後，算出機率最大的路徑來決定現在是 0 還是 1。這意味著必須 Buffer 足夠的資料量才能做決定，這天生就與 PCIe 的 低延遲 (Low Latency) 要求互斥。
PCIe 8.0 可能的處理方式： 目前業界推測 PCIe 8.0 很難直接照搬 Ethernet 的完整 MLSD。較可能的方向是：
- Reflection Cancellation (反射消除)： 在 DSP 內部做更複雜的數位消除，而不是依賴序列偵測。
- Trellis Coded Modulation (TCM) 的變體： 結合調變與編碼，但必須是極低延遲的簡化版。
- 銅線退場 (The End of Copper)： 256 GT/s 下，銅線距離可能縮短到 < 10公分。或許 PCIe 8.0 不會為了救銅線而導入高延遲的 MLSD，而是直接規範 CPO (Co-Packaged Optics) 或光學互連為長距離標準，銅線僅限於封裝內或極短距連接。

結論：

PCIe 8.0 不太可能全盤接收 Ethernet 的 MLSD。它更有可能繼續在 FFE/Reflection Cancellation 上榨取極限，或者乾脆兩手一攤，透過物理層介質的改變 (光學化) 來解決 SNR 問題，以保住它最重要的資產——超低延遲。

4. AI Applications

4.1 UIO (Unordered I/O)

UIO (Unordered I/O) 技術是 PCIe 7.0 從「單一樹狀架構」跨越到 「Fabric (網狀織物) 架構」 的關鍵轉捩點，目的是為了解決 AI 叢集在機櫃級 (Rack Level) 互連的頻寬阻塞問題。

目的：解除頻寬阻塞 (Head-of-Line Blocking)

痛點： 傳統 PCIe 嚴格遵守排序，導致前方的慢速封包會卡住後方無關的高速資料。在 128GT/s 的超高頻寬下，這種排序會嚴重拖累效率。
解法： UIO 允許在 VC 1-7 (虛擬通道) 上傳輸不需嚴格排序的資料，讓後方的封包可以「超車」，填滿介面頻寬。

機制：責任回歸源頭 (Source-Based Ordering)

改變： 不再要求沿途所有的 Switch 維護順序。
新制： 排序責任全權交給 發送端 (Source) 自己控管，中間的 Switch 與路徑視為「無序 (Unordered)」，只負責極速轉發，不再進行複雜的相依性檢查。

應用：實現 PCIe Fabric

突破： UIO 打破了單一路徑 (Tree Hierarchy) 的限制，支援 多重路徑 (Multi-path) 與 多頭裝置 (Multi-headed Devices)。
意義： 這讓 PCIe 具備了類似乙太網交換機的能力，能構建出機櫃級 (Rack-level) 的 Peer-to-Peer 互連網路，是 AI Scale-up架構的基礎。

4.2. Optical PCIe

Optical PCIe (光學 PCIe) 是 PCIe 能夠突破銅線物理極限，實現 「機櫃級互連 (Rack-Level Reach)」 的關鍵技術。

核心目的：突破距離與實現池化

距離延伸： 隨著 PCIe 7.0 速度變快，銅線傳輸距離急劇縮短。Optical PCIe 的首要任務是將傳輸距離拉長，覆蓋整個機櫃。
資源池化 (Pooling)： 它的戰略目標是實現伺服器之間的資源共享（如記憶體、加速器），讓多台機器能動態組合成一個系統 (Dynamic composability)。

兩種主要實作架構

PCI-SIG 定義了兩種光學互連的實現路徑，以適應不同的功耗與成本需求：

A. 基於 Retimer 的光學 PCIe (目前的主流標準)

機制： 使用 “Optical Aware Retimer”。在電氣層面上，Root Complex (CPU) 覺得它只是連到了一顆普通的 Retimer，但這顆 Retimer 背後其實連著光纖模組 (EIC/PIC)。
優勢： 完全相容。不需要修改現有的 CPU 或 Switch 設計 (No changes to RC/EP)，隨插即用。
進度： 相關功能已在 PCIe 6.4 ECN 發布，並正式納入 PCIe 7.0 規範。

B. 基於 Redriver 的光學 PCIe (未來的 Linear Drive/LPO)

機制： 移除昂貴且耗電的 Retimer (DSP)，改用 Redriver 直接驅動光訊號。這類似於乙太網中的 LPO (Linear Pluggable Optics) 概念。
挑戰： 因為移除了 Retimer 的重整功能，訊號品質更難控制，需要修改 Port 的設計，並且面臨 TX 等化訓練 (Equalization training) 的挑戰。
進度： 目前仍在開發中 (WIP)，目標是在 2025 年底 完成針對 PCIe 7.0 的 ECN。

4.3. 戰略目標

PCI-SIG 將 AI Scale-up (單機/機櫃內擴充) 與 Scale-out (跨機櫃網路) 列為 PCIe 7.0 的關鍵戰略目標:

Scale-up (機櫃內互連)：挑戰 NVLink 的壟斷

機會點：UIO 與 CXL 圖中提到 Scale-up 目前多為 “Proprietary” (指 Nvidia NVLink 或 AMD Infinity Fabric)，但 PCIe 7.0 透過 UIO (Universal I/O) 概念，試圖以標準化介面切入。
- Load/Store 語意： PCIe/CXL 本生就支援 CPU/GPU 共享記憶體的 Load-Store 語意，這是 AI 訓練中參數交換的剛需。
- 頻寬達標： PCIe 7.0 x16 雙向頻寬達 512 GB/s，雖仍低於 NVLink (900 GB/s - 1.8 TB/s)，但已具備作為次級或推論 (Inference) 叢集互連的資格。
挑戰： Nvidia 沒有誘因開放 NVLink。PCIe 7.0 在 Scale-up 的真正機會在於 非 Nvidia 陣營 (如 AMD, Intel) 透過 CXL 3.x 進行記憶體池化 (Memory Pooling) 與 GPU 互連。

Scale-out (跨節點網路)：餵飽 800G/1.6T 網卡

機會點：作為 “Feeder” (供輸者) 圖中明確指出 “PCIe technology needs to keep doubling frequency to meet networking needs”。
- 1:1 對應關係： 網卡 (NIC) 的速度由乙太網決定 (800G/1.6T)，但資料必須從 GPU/CPU 經由 PCIe 傳給網卡。
- 頻寬匹配： 一張 800G 網卡 需要 PCIe 6.0 x16 或 PCIe 7.0 x8 才能跑滿。若未來走向 1.6T Ethernet，則非 PCIe 7.0 x16 不可。PCIe 7.0 是實現次世代 Scale-out 網路的絕對前提。

隱藏的關鍵機會：Optical PCIe (光學化)

圖中 Scale-up 提到 “Constrained shore-line” (板邊空間受限) 與 “Highest frequency” 的物理限制。 PCIe 7.0 銅線傳不遠 (Retimer 數量暴增)，這將迫使 PCIe 直接 「光學化」 (Optical PCIe / CPO)。一旦 PCIe 能透過光纖傳輸數十公尺，它就有機會直接跳過乙太網，成為機櫃間 (Rack-to-Rack) 的互連標準，這才是 PCIe 最大的潛在變革。

總結：

PCIe 7.0 在 Scale-out 是「剛需」(為了餵飽 1.6T 網卡)；在 Scale-up 則是「備胎」(透過 CXL 服務非 Nvidia 陣營)，而光學互連是它突破機箱限制、統一 AI 傳輸介面的唯一機會。

Ted Yu

Discussion about this post

Ready for more?