AI 伺服器架構圖解|從硬體到軟體完整拆解
引言:AI 伺服器裡面到底有什麼?
打開一台 AI 伺服器,你會看到一堆複雜的電路板、散熱器、線材。
但這些東西是怎麼組合在一起,讓 AI 能夠「思考」的?
這篇文章用圖解的方式,帶你從硬體到軟體,完整拆解 AI 伺服器的架構。

一、AI 伺服器硬體架構
1.1 GPU 運算單元
GPU 是 AI 伺服器的心臟,負責所有 AI 運算。
典型配置:
- 4 張或 8 張高階 GPU(如 NVIDIA H100)
- 透過 NVLink 高速互連
- 共享 HBM 高頻寬記憶體
GPU 在 AI 伺服器中的角色:
1. 執行矩陣運算(AI 的核心計算)
2. 儲存模型參數和中間結果
3. 與其他 GPU 交換資料
一台配備 8 張 H100 的 AI 伺服器,總運算能力可達 16,000 TFLOPS(FP8),這是普通電腦的數千倍。
想深入了解 GPU,請看 GPU 伺服器完整解析。
1.2 CPU 控制單元
雖然 GPU 負責主要運算,但 CPU 仍然不可或缺。
CPU 在 AI 伺服器中的角色:
- 系統管理和任務調度
- 資料預處理和後處理
- I/O 操作(讀寫檔案、網路傳輸)
- 控制 GPU 的工作分配
典型配置:
- 1-2 顆高階伺服器 CPU(如 Intel Xeon 或 AMD EPYC)
- 大量 DDR5 記憶體(512GB-2TB)
CPU 就像是「指揮官」,負責告訴 GPU 該做什麼,但實際的「作戰」由 GPU 執行。
1.3 高速記憶體(HBM)
HBM(High Bandwidth Memory)是 AI 伺服器的關鍵元件。
為什麼需要 HBM:
- AI 模型動輒數十 GB 甚至數百 GB
- 這些資料需要不斷在 GPU 和記憶體間傳輸
- 傳統記憶體的頻寬跟不上 GPU 的運算速度
HBM vs DDR5 比較:
| 項目 | DDR5 | HBM3 |
|---|---|---|
| 頻寬 | ~100 GB/s | ~3,000 GB/s |
| 容量(單顆 GPU) | N/A | 80-141 GB |
| 位置 | 主機板上 | GPU 封裝內 |
| 成本 | 較低 | 極高 |
HBM 直接封裝在 GPU 晶片旁邊,大幅縮短資料傳輸距離,這是它能達到超高頻寬的原因。
1.4 儲存與網路
儲存:
- NVMe SSD:高速讀寫訓練資料
- 容量通常數 TB 到數十 TB
- 需要高 IOPS 支援大量小檔案讀取
網路:
- 高速網路介面(100Gbps 或 400Gbps)
- 用於叢集間的資料交換
- 分散式訓練時非常重要

二、AI 伺服器軟體堆疊
硬體只是基礎,軟體堆疊才是讓 AI 運作的關鍵。
2.1 驅動程式層(CUDA)
CUDA 是 NVIDIA GPU 的基礎軟體平台。
CUDA 的功能:
- 讓程式可以使用 GPU 運算
- 提供基礎的數學運算函式
- 管理 GPU 記憶體
CUDA 生態系元件:
- CUDA Toolkit:開發工具包
- cuDNN:深度學習函式庫
- cuBLAS:線性代數函式庫
- NCCL:多 GPU 通訊函式庫
沒有 CUDA,上層的 AI 框架就無法使用 GPU。這也是為什麼 NVIDIA 在 AI 市場如此強勢——他們掌握了軟體生態。
2.2 框架層(PyTorch/TensorFlow)
AI 框架是開發者直接接觸的工具。
PyTorch:
- 目前最受歡迎的 AI 框架
- 由 Meta(Facebook)開發
- 特色:靈活、易於調試、動態計算圖
TensorFlow:
- Google 開發的 AI 框架
- 企業應用廣泛
- 特色:穩定、部署工具完善
框架的角色:
1. 定義神經網路架構
2. 自動計算梯度
3. 管理訓練流程
4. 呼叫底層 CUDA 函式
2.3 應用層
最上層是實際的 AI 應用。
常見應用類型:
- 大型語言模型(ChatGPT、Claude)
- 圖像生成(Midjourney、Stable Diffusion)
- 語音辨識
- 電腦視覺
- 推薦系統
這些應用建立在框架之上,透過框架使用 GPU 的運算能力。
完整軟體堆疊:
┌─────────────────────────────┐
│ AI 應用(ChatGPT 等) │
├─────────────────────────────┤
│ 框架(PyTorch/TensorFlow) │
├─────────────────────────────┤
│ CUDA + cuDNN │
├─────────────────────────────┤
│ GPU 驅動程式 │
├─────────────────────────────┤
│ 作業系統(Linux) │
├─────────────────────────────┤
│ 硬體(GPU) │
└─────────────────────────────┘
三、AI 伺服器叢集架構
單台 AI 伺服器的能力有限。訓練大型模型,需要多台伺服器組成叢集。
3.1 單機 vs 叢集
單機訓練:
- 適合小型模型
- 資料和模型都在一台機器上
- 管理簡單
叢集訓練:
- 適合大型模型
- 資料和運算分散在多台機器
- 需要高效的通訊機制
實際案例:
- 訓練 GPT-3:使用約 1,000 台 AI 伺服器
- 訓練 GPT-4:據傳使用超過 10,000 台 AI 伺服器
3.2 分散式訓練架構
分散式訓練有兩種主要模式:
資料平行(Data Parallelism):
- 每台伺服器都有完整的模型副本
- 不同的訓練資料分配到不同伺服器
- 定期同步模型參數
模型平行(Model Parallelism):
- 模型太大,單台放不下
- 把模型切成多個部分,放在不同伺服器
- 需要頻繁的跨機器通訊
現代大型模型通常同時使用這兩種方法。
3.3 叢集通訊架構
叢集內的通訊效率至關重要。
關鍵技術:
- InfiniBand:超高速網路,延遲極低
- RDMA:直接記憶體存取,繞過 CPU
- NCCL:NVIDIA 的多 GPU 通訊函式庫
典型叢集拓撲:
- 脊葉(Spine-Leaf)架構
- 所有伺服器都可以高速互連
- 避免通訊瓶頸

四、架構設計考量
設計 AI 伺服器架構時,需要考慮多個因素。
4.1 運算需求
問題:你的 AI 任務需要多少運算能力?
考量因素:
- 模型大小(參數數量)
- 訓練資料量
- 預計訓練時間
- 是訓練還是推論
計算範例:
- 10 億參數模型 → 1-2 張 H100 可以處理
- 1000 億參數模型 → 需要數百張 GPU
4.2 記憶體頻寬
問題:資料傳輸會不會成為瓶頸?
AI 訓練中,資料不斷在 GPU 和記憶體之間流動。如果記憶體頻寬不夠,GPU 會「餓著」——有運算能力但沒資料可算。
解決方案:
- 使用 HBM 記憶體
- 優化資料載入流程
- 使用適當的批次大小
4.3 網路延遲
問題:叢集內的通訊會不會拖慢訓練?
分散式訓練需要頻繁同步參數。如果網路延遲太高,會嚴重影響效率。
解決方案:
- 使用 InfiniBand 高速網路
- 優化通訊演算法
- 採用適當的平行策略
4.4 散熱規劃
問題:這麼多熱量怎麼處理?
一台 8 卡 H100 伺服器功耗可達 10kW。一個有 100 台這樣伺服器的機房,要處理 1MW 的熱量。
解決方案:
- 水冷或浸沒式冷卻
- 精心設計的氣流管理
- 足夠的冷卻基礎設施
詳細的散熱技術,請看 AI 伺服器散熱技術解析。
FAQ 常見問題
Q1:一台 AI 伺服器可以訓練 GPT 嗎?
A:看模型大小。小型語言模型(數十億參數)可以在單台 8 卡 AI 伺服器上訓練。但像 GPT-4 這樣的超大型模型,需要數千到數萬張 GPU 的叢集。
Q2:為什麼 AI 伺服器一定要用 NVIDIA?
A:主要是軟體生態。CUDA 和相關函式庫已經發展 15 年以上,幾乎所有 AI 框架都對 NVIDIA GPU 優化最好。AMD 和 Intel 在硬體上可以競爭,但軟體生態的差距很難短期彌補。
Q3:AI 伺服器架構和一般伺服器架構有什麼不同?
A:主要差異是以 GPU 為中心。一般伺服器的架構以 CPU 為核心,I/O 設計圍繞 CPU。AI 伺服器則把 GPU 放在最重要的位置,CPU 反而變成輔助角色。電源、散熱、互連都要重新設計。
Q4:自己架設 AI 伺服器叢集要注意什麼?
A:很多事情:
1. 電力供應是否足夠
2. 散熱系統是否能處理熱量
3. 網路基礎設施是否到位
4. 機房空間是否足夠
5. 維運團隊是否有相關經驗
如果沒有經驗,建議先用雲端服務。
Q5:未來 AI 伺服器架構會怎麼演變?
A:幾個趨勢:
1. GPU 間的互連會越來越快
2. 記憶體容量和頻寬會持續提升
3. 散熱技術會更先進(液冷成為標配)
4. 可能出現更多專用 AI 晶片(但 GPU 仍是主流)
5. 軟硬體整合會更緊密
結論:理解架構是 AI 的基礎功
AI 伺服器的架構看起來複雜,但核心邏輯很簡單:
硬體層面:
- GPU 負責運算
- CPU 負責調度
- 高速記憶體和網路確保資料流通順暢
軟體層面:
- CUDA 提供基礎能力
- 框架讓開發更方便
- 應用層實現各種 AI 功能
理解這些架構,可以幫助你:
- 更好地選擇硬體配置
- 更有效地使用雲端資源
- 更深入地了解 AI 產業
延伸閱讀:
- 伺服器基礎知識
- AI 伺服器是什麼?
- GPU 伺服器完整解析
- 伺服器機櫃選購指南
雲端部署搞不懂?讓我們幫你
AWS、GCP、Azure 或其他雲端平台,我們都能幫你設定。從架構規劃到實際部署,專業工程師團隊 24 小時內回覆。
參考資料
- NVIDIA,「NVIDIA DGX H100 System Architecture」,NVIDIA(2024)
- NVIDIA,「CUDA Programming Guide」,NVIDIA Developer(2024)
- PyTorch,「Distributed Training Guide」,PyTorch Documentation(2024)
- Google,「Deep Learning System Design」,Google AI Blog(2024)
- 資策會 MIC,「AI 運算架構趨勢分析」,MIC Report(2024)