AI 伺服器架構圖解:硬體組成、軟體堆疊完整解析【2025】|VibeFix

AI 伺服器架構圖解|從硬體到軟體完整拆解

引言:AI 伺服器裡面到底有什麼?

打開一台 AI 伺服器,你會看到一堆複雜的電路板、散熱器、線材。

但這些東西是怎麼組合在一起,讓 AI 能夠「思考」的?

這篇文章用圖解的方式,帶你從硬體到軟體,完整拆解 AI 伺服器的架構。

ai-server-internal-top-view-layout

一、AI 伺服器硬體架構

1.1 GPU 運算單元

GPU 是 AI 伺服器的心臟,負責所有 AI 運算。

典型配置:
- 4 張或 8 張高階 GPU(如 NVIDIA H100)
- 透過 NVLink 高速互連
- 共享 HBM 高頻寬記憶體

GPU 在 AI 伺服器中的角色:
1. 執行矩陣運算(AI 的核心計算)
2. 儲存模型參數和中間結果
3. 與其他 GPU 交換資料

一台配備 8 張 H100 的 AI 伺服器,總運算能力可達 16,000 TFLOPS(FP8),這是普通電腦的數千倍。

想深入了解 GPU,請看 GPU 伺服器完整解析

1.2 CPU 控制單元

雖然 GPU 負責主要運算,但 CPU 仍然不可或缺。

CPU 在 AI 伺服器中的角色:
- 系統管理和任務調度
- 資料預處理和後處理
- I/O 操作(讀寫檔案、網路傳輸)
- 控制 GPU 的工作分配

典型配置:
- 1-2 顆高階伺服器 CPU(如 Intel Xeon 或 AMD EPYC)
- 大量 DDR5 記憶體(512GB-2TB)

CPU 就像是「指揮官」,負責告訴 GPU 該做什麼,但實際的「作戰」由 GPU 執行。

1.3 高速記憶體(HBM)

HBM(High Bandwidth Memory)是 AI 伺服器的關鍵元件。

為什麼需要 HBM:
- AI 模型動輒數十 GB 甚至數百 GB
- 這些資料需要不斷在 GPU 和記憶體間傳輸
- 傳統記憶體的頻寬跟不上 GPU 的運算速度

HBM vs DDR5 比較:

項目 DDR5 HBM3
頻寬 ~100 GB/s ~3,000 GB/s
容量(單顆 GPU) N/A 80-141 GB
位置 主機板上 GPU 封裝內
成本 較低 極高

HBM 直接封裝在 GPU 晶片旁邊,大幅縮短資料傳輸距離,這是它能達到超高頻寬的原因。

1.4 儲存與網路

儲存:
- NVMe SSD:高速讀寫訓練資料
- 容量通常數 TB 到數十 TB
- 需要高 IOPS 支援大量小檔案讀取

網路:
- 高速網路介面(100Gbps 或 400Gbps)
- 用於叢集間的資料交換
- 分散式訓練時非常重要

ai-server-hardware-architecture-diagram

二、AI 伺服器軟體堆疊

硬體只是基礎,軟體堆疊才是讓 AI 運作的關鍵。

2.1 驅動程式層(CUDA)

CUDA 是 NVIDIA GPU 的基礎軟體平台。

CUDA 的功能:
- 讓程式可以使用 GPU 運算
- 提供基礎的數學運算函式
- 管理 GPU 記憶體

CUDA 生態系元件:
- CUDA Toolkit:開發工具包
- cuDNN:深度學習函式庫
- cuBLAS:線性代數函式庫
- NCCL:多 GPU 通訊函式庫

沒有 CUDA,上層的 AI 框架就無法使用 GPU。這也是為什麼 NVIDIA 在 AI 市場如此強勢——他們掌握了軟體生態。

2.2 框架層(PyTorch/TensorFlow)

AI 框架是開發者直接接觸的工具。

PyTorch:
- 目前最受歡迎的 AI 框架
- 由 Meta(Facebook)開發
- 特色:靈活、易於調試、動態計算圖

TensorFlow:
- Google 開發的 AI 框架
- 企業應用廣泛
- 特色:穩定、部署工具完善

框架的角色:
1. 定義神經網路架構
2. 自動計算梯度
3. 管理訓練流程
4. 呼叫底層 CUDA 函式

2.3 應用層

最上層是實際的 AI 應用。

常見應用類型:
- 大型語言模型(ChatGPT、Claude)
- 圖像生成(Midjourney、Stable Diffusion)
- 語音辨識
- 電腦視覺
- 推薦系統

這些應用建立在框架之上,透過框架使用 GPU 的運算能力。

完整軟體堆疊:

┌─────────────────────────────┐
│     AI 應用(ChatGPT 等)     │
├─────────────────────────────┤
│   框架(PyTorch/TensorFlow)  │
├─────────────────────────────┤
│       CUDA + cuDNN          │
├─────────────────────────────┤
│      GPU 驅動程式            │
├─────────────────────────────┤
│      作業系統(Linux)        │
├─────────────────────────────┤
│         硬體(GPU)          │
└─────────────────────────────┘

三、AI 伺服器叢集架構

單台 AI 伺服器的能力有限。訓練大型模型,需要多台伺服器組成叢集。

3.1 單機 vs 叢集

單機訓練:
- 適合小型模型
- 資料和模型都在一台機器上
- 管理簡單

叢集訓練:
- 適合大型模型
- 資料和運算分散在多台機器
- 需要高效的通訊機制

實際案例:
- 訓練 GPT-3:使用約 1,000 台 AI 伺服器
- 訓練 GPT-4:據傳使用超過 10,000 台 AI 伺服器

3.2 分散式訓練架構

分散式訓練有兩種主要模式:

資料平行(Data Parallelism):
- 每台伺服器都有完整的模型副本
- 不同的訓練資料分配到不同伺服器
- 定期同步模型參數

模型平行(Model Parallelism):
- 模型太大,單台放不下
- 把模型切成多個部分,放在不同伺服器
- 需要頻繁的跨機器通訊

現代大型模型通常同時使用這兩種方法。

3.3 叢集通訊架構

叢集內的通訊效率至關重要。

關鍵技術:
- InfiniBand:超高速網路,延遲極低
- RDMA:直接記憶體存取,繞過 CPU
- NCCL:NVIDIA 的多 GPU 通訊函式庫

典型叢集拓撲:
- 脊葉(Spine-Leaf)架構
- 所有伺服器都可以高速互連
- 避免通訊瓶頸

ai-server-cluster-architecture-diagram

四、架構設計考量

設計 AI 伺服器架構時,需要考慮多個因素。

4.1 運算需求

問題:你的 AI 任務需要多少運算能力?

考量因素:
- 模型大小(參數數量)
- 訓練資料量
- 預計訓練時間
- 是訓練還是推論

計算範例:
- 10 億參數模型 → 1-2 張 H100 可以處理
- 1000 億參數模型 → 需要數百張 GPU

4.2 記憶體頻寬

問題:資料傳輸會不會成為瓶頸?

AI 訓練中,資料不斷在 GPU 和記憶體之間流動。如果記憶體頻寬不夠,GPU 會「餓著」——有運算能力但沒資料可算。

解決方案:
- 使用 HBM 記憶體
- 優化資料載入流程
- 使用適當的批次大小

4.3 網路延遲

問題:叢集內的通訊會不會拖慢訓練?

分散式訓練需要頻繁同步參數。如果網路延遲太高,會嚴重影響效率。

解決方案:
- 使用 InfiniBand 高速網路
- 優化通訊演算法
- 採用適當的平行策略

4.4 散熱規劃

問題:這麼多熱量怎麼處理?

一台 8 卡 H100 伺服器功耗可達 10kW。一個有 100 台這樣伺服器的機房,要處理 1MW 的熱量。

解決方案:
- 水冷或浸沒式冷卻
- 精心設計的氣流管理
- 足夠的冷卻基礎設施

詳細的散熱技術,請看 AI 伺服器散熱技術解析


FAQ 常見問題

Q1:一台 AI 伺服器可以訓練 GPT 嗎?

A:看模型大小。小型語言模型(數十億參數)可以在單台 8 卡 AI 伺服器上訓練。但像 GPT-4 這樣的超大型模型,需要數千到數萬張 GPU 的叢集。

Q2:為什麼 AI 伺服器一定要用 NVIDIA?

A:主要是軟體生態。CUDA 和相關函式庫已經發展 15 年以上,幾乎所有 AI 框架都對 NVIDIA GPU 優化最好。AMD 和 Intel 在硬體上可以競爭,但軟體生態的差距很難短期彌補。

Q3:AI 伺服器架構和一般伺服器架構有什麼不同?

A:主要差異是以 GPU 為中心。一般伺服器的架構以 CPU 為核心,I/O 設計圍繞 CPU。AI 伺服器則把 GPU 放在最重要的位置,CPU 反而變成輔助角色。電源、散熱、互連都要重新設計。

Q4:自己架設 AI 伺服器叢集要注意什麼?

A:很多事情:
1. 電力供應是否足夠
2. 散熱系統是否能處理熱量
3. 網路基礎設施是否到位
4. 機房空間是否足夠
5. 維運團隊是否有相關經驗

如果沒有經驗,建議先用雲端服務。

Q5:未來 AI 伺服器架構會怎麼演變?

A:幾個趨勢:
1. GPU 間的互連會越來越快
2. 記憶體容量和頻寬會持續提升
3. 散熱技術會更先進(液冷成為標配)
4. 可能出現更多專用 AI 晶片(但 GPU 仍是主流)
5. 軟硬體整合會更緊密


結論:理解架構是 AI 的基礎功

AI 伺服器的架構看起來複雜,但核心邏輯很簡單:

硬體層面:
- GPU 負責運算
- CPU 負責調度
- 高速記憶體和網路確保資料流通順暢

軟體層面:
- CUDA 提供基礎能力
- 框架讓開發更方便
- 應用層實現各種 AI 功能

理解這些架構,可以幫助你:
- 更好地選擇硬體配置
- 更有效地使用雲端資源
- 更深入地了解 AI 產業

延伸閱讀:
- 伺服器基礎知識
- AI 伺服器是什麼?
- GPU 伺服器完整解析
- 伺服器機櫃選購指南


雲端部署搞不懂?讓我們幫你

AWS、GCP、Azure 或其他雲端平台,我們都能幫你設定。從架構規劃到實際部署,專業工程師團隊 24 小時內回覆。

諮詢雲端方案


參考資料

  1. NVIDIA,「NVIDIA DGX H100 System Architecture」,NVIDIA(2024)
  2. NVIDIA,「CUDA Programming Guide」,NVIDIA Developer(2024)
  3. PyTorch,「Distributed Training Guide」,PyTorch Documentation(2024)
  4. Google,「Deep Learning System Design」,Google AI Blog(2024)
  5. 資策會 MIC,「AI 運算架構趨勢分析」,MIC Report(2024)
分享文章:
V

VibeFix

專門解決 AI Vibe Coding 後的疑難雜症,讓你的專案順利上線。

這篇文章有幫到你嗎?

如果還有問題,讓我們直接幫你解決!

聯繫我們