Vera Rubin 把 SSD 當延伸顯存,如何重畫 NAND 需求曲線?
在 Vera Rubin 架構中,1152 TB SSD 不只是容量堆疊,而是被當成「延伸顯存」與「大規模 KV 快取池」。這種設計直接改變 NAND 的使用場景:從以往偏向冷資料、備份與一般雲端儲存,轉向高頻讀取、與 GPU 推論緊密綁定的熱資料層。長期來看,若代理式 AI、長上下文推論成為主流,單機 SSD 需求不再是幾顆 TB 等級,而是十幾顆 16 TB 等級的配置,NAND 需求曲線自然會從「平緩成長」轉向更陡峭的結構性成長。
ICMS + G3.5 Context Memory:讓 NAND 從「配角」變成推論效能關鍵
ICMS 架構下的 G3.5 記憶體層,實質上是把 16 TB TLC SSD,透過 DPU 與高速網路「拉近」到接近主記憶體的角色。這不只推高單台伺服器的 NAND 用量,也提升對高耐久、高頻寬 SSD 的需求密度。若公有雲、大型企業 AI 平台普遍採用類似 ICMS,NAND 的成長動能將被多重因素疊加:每台伺服器的 SSD 容量上升、機櫃密度提升、模型版本與 KV 快取的長期保留時間拉長。讀者可以反問:當推論本身離不開外部顯存池時,NAND 還只是「可有可無的成本項」嗎?
長期 NAND 需求的關鍵變數:技術效率與架構分歧
即便 Vera Rubin 展現了 NAND 的「超級循環」潛力,長期需求曲線仍受多項技術與產業變數牽動。若未來模型透過壓縮、稀疏化、進階 KV 管理,減少對長上下文完整保留的依賴,延伸顯存所需的 SSD 容量可能被壓回來。同時,不同雲端業者可能選擇各自優化方案,有人用更多 HBM、有人押注 CXL 記憶體池,並非所有人都會複製 Rubin 的 1152 TB 規格。對關注產業的讀者而言,真正值得追蹤的,是三件事:SSD 是否持續從冷資料走向熱快取角色、AI 平台是否把 NAND 視為推論效能瓶頸的一環,以及各家架構在「容量 vs. 演算法效率」之間如何取捨,這些都將決定 NAND 需求曲線究竟是暫時抬升,還是進入長期結構性新軌道。
FAQ
Q1:Vera Rubin 把 SSD 當延伸顯存,為何特別利多 NAND?
A:因為 SSD 變成高頻快取層,單機容量與效能要求同時提高,對 NAND 的用量與品質都提出更高需求。
Q2:ICMS 架構會讓所有 AI 伺服器都走向超大 SSD 配置嗎?
A:不一定,仍取決於雲端業者的成本結構、模型型態與對延伸顯存的依賴程度,可能出現多種路線並存。
Q3:哪些技術可能壓抑 NAND 的長期需求?
A:模型壓縮、稀疏化、更有效率的 KV 管理,以及以 CXL、HBM 為核心的替代架構,都可能降低對超大容量 SSD 的必要性。
你可能想知道...