這裡介紹如何在 Linux 系統上進行 NVIDIA GPU 顯示卡的壓力測試。

在組裝含有多張 GPU 顯示卡的大型工作站時,通常都要考慮電力與散熱問題,顯示卡的耗電量可以經由廠商的規格直接查出來,但是散熱問題就會跟機殼、風扇與空調設備的配置有關,通常都要上機實測才能知道會不會過熱。


若要測試 GPU 顯示卡是否會有過熱的問題,可以使用 gpu-burn 這個 GPU 壓力測試工具,也就是讓 GPU 在滿載的狀態下運行,看看溫度是否在容許範圍之內。以下是 gpu_burn 的使用教學。

gpu_burn

gpu-burn 的 GitHub 網站上下載原始碼:

git clone https://github.com/Microway/gpu-burn.git

使用 nvcc 編譯 gpu_burn(請先安裝好 NVIDIA CUDA 相關的驅動程式與工具):

cd gpu-burn
make

進行基本壓力測試:

./gpu_burn

若直接執行 gpu_burn,它預設只會執行幾秒鐘,進行基本的測試就離開了。

gpu_burn 輸出

在測試的輸出中,會顯示顯示卡的溫度、執行的工作以及錯誤出現次數,測試完成後,會顯示測試結果,若顯示為 OK 則代表 GPU 計算的結果完全正確,若顯示為 FAULTY 則表示 GPU 出現問題了。

在測試的同時,我們也可以使用 nvidia-smi 這個 NVIDIA 官方的工具來監看 GPU 的狀態。

watch -n 1 nvidia-smi

nvidia-smi 輸出

若要進行長時間的測試,可以直接指定要測試的時間(單位為秒):

./gpu_burn 60

這樣就會讓所有的 GPU 持續滿載 60 秒。

若要使用雙精度的浮點運算來測試,可以加上 -d 參數:

./gpu_burn -d 60

參考資料:wiliHowtoForgePCsuggest