AI 訓練為甚麼需要重新思考儲存？AskAIs Mini SSD 的產品起點與技術路線

談到人工智能基礎設施，人們首先想到的通常是 GPU、計算芯片和模型參數。儲存往往只有在容量不足、訓練中斷，或者 GPU 開始等待數據時，才突然成為焦點。

但 AI 系統的速度，從來不只取決於計算能力。模型訓練需要持續讀取數據集，資料處理管線要把樣本送到加速器，系統亦要定期寫入 checkpoint，確保遇到故障後可以恢復。

如果儲存無法以足夠穩定的吞吐和延遲完成這些工作，再昂貴的 GPU 也可能被迫等待。

這正是 Stellar AGI Labs 開發 AskAIs Mini SSD 的出發點。

作為公司第一款公開 AI 硬件產品，AskAIs Mini SSD 採用 M.2 NVMe 2280 規格，規劃提供 128GB、256GB、512GB、1TB、2TB 及 4TB 容量。官方將其定位為面向 LLM Training 的大容量、高吞吐儲存，並表示產品已完成研發，預計於年底在香港推出。

不過，「AI SSD」不是只靠名稱便能成立的產品分類。M.2 說明外形，NVMe 說明協議與接口方向，容量說明能儲存多少資料；真正決定它是否適合 AI 訓練的，還包括控制器、NAND、韌體、快取、持續性能、延遲、寫入耐用度、散熱、功耗及相容性。

AI 訓練的儲存問題發生在哪裏？

大型模型訓練並不是把整個數據集一次放進 GPU，然後等待計算完成。資料會在儲存、CPU 記憶體、GPU 記憶體及不同節點之間持續流動。

第一個問題，是如何把訓練數據持續送到 GPU。

模型訓練通常會把數據集切分成大量樣本或資料分片，由資料載入器讀取、解碼和預處理，再形成 batch 送入 GPU。

如果儲存供應速度不足，資料載入器便無法及時準備下一批數據。GPU 完成當前計算後沒有新資料可處理，就會出現等待。

MLCommons 的 MLPerf Storage 基準，正是測量儲存系統能以多快速度供應訓練數據，並讓加速器保持至少 90% 使用率。它說明 AI 儲存的價值，不只是跑出漂亮的 MB/s，而是讓昂貴的計算資源持續工作。

Checkpoint 也是一項龐大的儲存工作

模型訓練可能持續數小時、數天甚至更長。為避免硬件故障或軟件錯誤令所有進度消失，系統會定期保存 checkpoint。

Checkpoint 不只包含模型權重，還可能包括優化器狀態、學習率、隨機狀態和分布式訓練資訊。模型規模愈大，checkpoint 也愈龐大。

MLPerf Storage 公開資料顯示，其 Llama 3 checkpoint 工作負載由 8B 模型約 105GB，擴展至 1T 模型約 18TB。

這不是說一塊 M.2 SSD 需要獨立承擔 18TB checkpoint，而是說明模型規模增加後，保存及恢復訓練進度本身已成為重要的儲存工程問題。

寫入 checkpoint 時，系統不只需要瞬間峰值速度，更需要穩定的持續寫入。如果 SSD 的高速快取耗盡後速度大幅下降，訓練節點便可能長時間等待保存完成。

儲存與 GPU 之間的資料路徑

傳統資料路徑通常先把資料由儲存讀入 CPU 系統記憶體，再複製到 GPU 記憶體。這會佔用 CPU、記憶體頻寬及 PCIe 資源。

NVIDIA GPUDirect Storage 提供儲存與 GPU 記憶體之間的直接資料路徑，減少資料經 CPU bounce buffer 中轉，可以降低 CPU 負載、延遲及系統頻寬瓶頸。

但購買 NVMe SSD 並不代表自動支援 GPUDirect Storage。它還需要相容的 GPU、驅動程式、CUDA、檔案系統、系統拓撲及應用程式。

SSD 是整個 AI 資料管線的一部分，而不是單獨決定端到端性能的唯一組件。

M.2 NVMe 2280 代表甚麼？

M.2 2280 表示模組寬約 22 毫米、長約 80 毫米，是桌面電腦、工作站及部分伺服器常見的緊湊型 SSD 外形。

NVMe 則是一套為非揮發性儲存設計的協議，通常透過 PCIe 連接主機，支援較高並行度及較低軟件開銷。

但兩款同為 M.2 NVMe 2280 的 SSD，實際性能可以完全不同。

一塊 SSD 通常由控制器、DRAM 或主機記憶體緩衝區、NAND、PCB 及韌體組成。控制器負責 Flash Translation Layer、垃圾回收、磨損平均及資料調度；NAND、快取、後端通道、功耗及散熱則共同影響性能。

因此，AskAIs Mini SSD 正式發布時，需要進一步公布 PCIe 世代、控制器平台、NAND 類型、是否配置獨立 DRAM，以及各容量的完整性能。

峰值速度不等於 AI 訓練速度

不少 SSD 會把部分 NAND 暫時作為高速寫入區。短時間寫入時，測試結果非常漂亮；當快取用盡，速度可能回落至 NAND 原生水平。

一般文件複製可能在快取耗盡前已經完成，但 checkpoint、數據集整理及長時間訓練日誌可能持續寫入數百 GB。

因此，AI 訓練更需要關注快取外的持續寫入速度，以及磁碟在 50% 或 80% 填充後的表現。

AskAIs Mini SSD 的正式評測，應同時公布空碟峰值、快取容量、快取耗盡後速度、長時間穩態性能及寫入恢復時間。

耐用度比短時間跑分更重要

NAND 的寫入及擦除次數有限。SSD 通常會預留部分原始容量，用於替代老化單元並提高可靠性。

SSD 耐用度一般以 TBW 或 DWPD 表示。如果產品定位為長時間 AI 訓練，TBW、保養年期及工作負載條件，會比一句「持續穩定」更有說服力。

不同容量的 NAND 數量和寫入分布不同，因此 128GB、1TB 和 4TB 版本應分別公布 TBW，不宜只使用一個全系列數字。

M.2 的優勢是緊湊，挑戰也是緊湊

M.2 體積小、容易安裝，適合 AI 工作站、開發電腦及邊緣設備。但有限面積也意味着散熱和功耗空間受限。

長時間連續讀寫會令控制器和 NAND 升溫。一旦達到溫度閾值，SSD 可能降速保護硬件。

短時間跑分未必看得到 thermal throttling，數小時的訓練及 checkpoint 循環卻可能暴露問題。

因此，AskAIs Mini SSD 需要公布工作溫度、最大功耗、建議散熱方案，以及持續負載下是否發生降速。

六種容量應該對應不同 AI 場景

128GB 及 256GB 更適合作業系統、開發環境、模型快取及邊緣設備，不應籠統描述為大型 LLM 訓練儲存。

512GB 及 1TB 可面向 AI 學習、推理、微調實驗、本地資料預處理和中小型 checkpoint。

2TB 及 4TB 則更適合 AI 工作站、本地數據集、模型檔案、快取及 checkpoint 暫存。

即使是 4TB，也不能獨立覆蓋大型訓練集群的全部需求。大型系統通常需要多塊本地 SSD、網絡儲存、並行檔案系統或物件儲存協同。

更準確的定位，是把 AskAIs Mini SSD 視為 AI 儲存架構中的本地高速層。

AI SSD 應該怎樣測試？

除了最高順序讀寫速度，正式測試應包括隨機 IOPS、不同 queue depth、平均延遲、P95 及 P99 尾延遲、快取耗盡後持續寫入、TBW、功耗、溫度及降速情況。

AI 工作負載測試則應包含 PyTorch 資料載入、不同檔案大小、多 worker 並行、GPU 利用率、checkpoint 寫入、checkpoint 恢復及多 GPU 同時存取。

測試時亦應說明處理器、GPU、主板、作業系統、驅動程式、框架版本、資料規模、磁碟填充率及環境溫度。

只有測試條件完整公開，結果才可以被客戶重現和比較。

香港研發、深圳製造

AskAIs Mini SSD 由香港研發總部主導設計，深圳市星問芯片科技有限公司負責製造。

這種模式能結合香港的產品、研發及國際市場能力，以及深圳成熟的電子供應鏈與製造資源。

但「香港研發、深圳製造」要成為真正的品牌資產，還需要說明具體分工：產品定義、PCB、訊號完整性、散熱、控制器與 NAND 選型、韌體調校、生產測試、老化測試及質量抽樣分別由誰負責。

客戶並不要求所有零件都由同一家公司生產。真正重要的是，品牌能否掌握產品定義、質量標準、驗證數據及售後責任。

Stellar 為甚麼要由 AI 軟件進入 SSD？

Stellar AGI Labs 最初以 AskAIs AI 應用、模型及 API 起步。開發這些服務的過程，讓團隊直接接觸數據集、模型檔案、快取、checkpoint 及訓練基礎設施。

因此，Mini SSD 並非完全脫離原有業務的消費電子嘗試，而是 Stellar 由應用層走向模型、API 及底層硬件的一部分。

如果路線能夠形成閉環，軟件團隊可以提供真實 AI 負載，硬件團隊據此優化產品；新 SSD 再回到 AskAIs 訓練及客戶環境中驗證。

這種 software-hardware co-design，比只做通用跑分更有機會形成差異化。

正式發布前需要回答的問題

AskAIs Mini SSD 仍需要公布控制器、NAND、PCIe 世代、NVMe 版本、DRAM、SLC 快取策略、順序與隨機性能、持續寫入、TBW、溫度、功耗及保養。

同時還需要說明是否具備掉電保護、SMART 監控、韌體更新、RMA 機制，以及哪些主板、工作站和作業系統已經完成相容性測試。

對於「自主研發」，專業市場也會關注 Stellar 具體負責哪些部分，哪些採用合作夥伴方案。清楚說明技術邊界不會削弱品牌，反而能建立可信度。

結語：AI 硬件最終要由工作負載證明

AskAIs Mini SSD 是 Stellar AGI Labs 由 AI 應用、模型與 API 走向底層硬件的第一步。

它背後的判斷是正確的：AI 基礎設施並不只有 GPU，儲存同樣會影響數據供應、checkpoint、恢復時間和整體加速器利用率。

M.2 NVMe 2280 提供了普及而緊湊的產品基礎，128GB 至 4TB 覆蓋不同成本與容量需求；香港研發與深圳製造，則為快速迭代提供組織條件。

但 AI SSD 不應該只是包裝上的三個字母。它必須能夠回答一個具體問題：當模型讀取數據、保存進度或故障恢復時，這塊 SSD 能否穩定減少等待，讓計算資源持續工作？

當這個答案可以通過公開、透明、可重複的測試證明，AskAIs Mini SSD 才真正成為 Stellar 自主算力與儲存生態的第一塊基石。