這裡介紹如何在 Linux 系統上進行 NVIDIA GPU 顯示卡的壓力測試。
在組裝含有多張 GPU 顯示卡的大型工作站時,通常都要考慮電力與散熱問題,顯示卡的耗電量可以經由廠商的規格直接查出來,但是散熱問題就會跟機殼、風扇與空調設備的配置有關,通常都要上機實測才能知道會不會過熱。
若要測試 GPU 顯示卡是否會有過熱的問題,可以使用 gpu-burn 這個 GPU 壓力測試工具,也就是讓 GPU 在滿載的狀態下運行,看看溫度是否在容許範圍之內。以下是
gpu_burn
的使用教學。
gpu_burn
從 gpu-burn 的 GitHub 網站上下載原始碼:
git clone https://github.com/Microway/gpu-burn.git
使用 nvcc
編譯 gpu_burn
(請先安裝好 NVIDIA CUDA 相關的驅動程式與工具):
cd gpu-burn make
進行基本壓力測試:
./gpu_burn
若直接執行 gpu_burn
,它預設只會執行幾秒鐘,進行基本的測試就離開了。
在測試的輸出中,會顯示顯示卡的溫度、執行的工作以及錯誤出現次數,測試完成後,會顯示測試結果,若顯示為 OK
則代表 GPU 計算的結果完全正確,若顯示為 FAULTY
則表示 GPU 出現問題了。
在測試的同時,我們也可以使用 nvidia-smi 這個 NVIDIA 官方的工具來監看 GPU 的狀態。
watch -n 1 nvidia-smi
若要進行長時間的測試,可以直接指定要測試的時間(單位為秒):
./gpu_burn 60
這樣就會讓所有的 GPU 持續滿載 60 秒。
若要使用雙精度的浮點運算來測試,可以加上 -d
參數:
./gpu_burn -d 60
參考資料:wili、HowtoForge、PCsuggest