CentOS Linux 安裝與使用 NVIDIA Docker GPU 計算環境教學

這裡介紹如何在 CentOS Linux 中安裝 NVIDIA Docker GPU 計算環境，並在 Docker 中編譯與執行簡單的 CUDA 程式。

NVIDIA Docker 是 NVIDIA 官方所提供的 Docker 執行環境，可以讓有使用 CUDA 的程式放在 Docker 中執行，以下是安裝 NVIDIA Docker 的步驟。

安裝 NVIDIA Docker

Step 1
在 CentOS Linux 中安裝好基本的 Docker 環境，以及 NVIDIA 驅動程式，確認 NVIDIA 顯示卡可以正常運作。

Step 2
安裝 nvidia-docker RPM 套件：

wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker-1.0.1-1.x86_64.rpm
sudo rpm -i /tmp/nvidia-docker*.rpm && rm /tmp/nvidia-docker*.rpm
sudo systemctl start nvidia-docker

在 NVIDIA Docker 中執行 nvidia-smi 指令，進行測試：

nvidia-docker run --rm nvidia/cuda nvidia-smi

正常的話，應該就可以看到 NVIDIA 顯示卡的資訊了。

NVIDIA Docker 測試輸出訊息

這樣就完成 NVIDIA Docker 的安裝了。

接著從 Docker Hub 下載最新的 nvidia/cuda Docker 影像：

nvidia-docker pull nvidia/cuda

檢查這個 nvidia/cuda Docker 影像中的 nvcc 編譯器版本：

nvidia-docker run --rm -ti nvidia/cuda nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2016 NVIDIA Corporation
Built on Tue_Jan_10_13:22:03_CST_2017
Cuda compilation tools, release 8.0, V8.0.61

若需要舊版 CUDA 的人，可以直接指定 CUDA 版本：

nvidia-docker run --rm -ti nvidia/cuda:7.0 nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2015 NVIDIA Corporation
Built on Mon_Feb_16_22:59:02_CST_2015
Cuda compilation tools, release 7.0, V7.0.27

我們可以在 Docker 容器中開啟一個互動式的 bash shell，在這個環境下我們可以檢查此容器中的環境（例如 /usr/local/cuda 之下的 CUDA 安裝內容，或是其他系統套件工具）：

nvidia-docker run --rm -ti nvidia/cuda bash

在 Docker 容器中我們可以使用 apt 這類的套件管理工具安裝各種套件，只不過所有的變動在離開 Docker 容器之後就會消失，不會被儲存起來，我們可以放心在這裡面做各種的測試，這個特性也是 Docker 的特色之一，隨後我們將介紹在 Docker 影像中新增內容的方法。

建立 Docker 中的 GPU 應用程式

這裡我們以 CUDA 8.0 的 Docker 影像為基礎，示範如何在 Docker 容器中編譯 deviceQuery 這個最簡單的 CUDA 設備查詢程式，並且在 Docker 容器中執行這個 CUDA 程式。

首先建立一個 Dockerfile，內容如下：

# 基礎的 Docker 影像
FROM nvidia/cuda

# 安裝 deviceQuery 原始碼
RUN apt-get update && apt-get install -y --no-install-recommends 
        cuda-samples-$CUDA_PKG_VERSION && 
    rm -rf /var/lib/apt/lists/*

# 設定工作目錄
WORKDIR /usr/local/cuda/samples/1_Utilities/deviceQuery

# 編譯 deviceQuery
RUN make

# Docker 容器主要的執行程式
CMD ./deviceQuer

關於 Dockerfile 的寫法，請參考 Docker 官方的說明文件。

根據這個 Dockerfile 建立 Docker 影像：

nvidia-docker build -t device-query .

建立好之後，檢查一下目前可用的 Docker 影像：

docker images

REPOSITORY                     TAG                 IMAGE ID            CREATED             SIZE
device-query                   latest              924f7af38829        21 seconds ago      1.97 GB
guozhaowang/gtwang-demo        part1               810b6202eaea        16 hours ago        194 MB
nvidia/cuda                    latest              614dcdafa05c        5 days ago          1.67 GB
gcr.io/tensorflow/tensorflow   latest-gpu          85c8f551e1d2        11 days ago         2.89 GB
tensorflow/tensorflow          latest-gpu          85c8f551e1d2        11 days ago         2.89 GB
hello-world                    latest              1815c82652c0        11 days ago         1.84 kB
nvidia/cuda                    7.0                 65b5dd170f5e        6 months ago        1.2 GB

接著執行 device-query 這個剛建立好的 Docker 影像：

nvidia-docker run --rm -ti device-query

正常來說，這樣就可以在 Docker 執行 deviceQuery 這個 CUDA 程式了，其輸出會是 CUDA 設備的資訊。

deviceQuery 輸出訊息

NVIDIA Docker 有提供指定 GPU 的功能，我們可以使用 NV_GPU 這個環境變數來指定 Docker 容器可使用的 GPU 編號，例如讓 Docker 容器使用第二個 GPU 設備（編號 1）：

NV_GPU=1 nvidia-docker run --rm -ti device-query

這樣使用 deviceQuery 程式查詢出來，就只會出現一張 CUDA 的顯示卡。

deviceQuery 輸出訊息

佈署 Docker 中的 GPU 應用程式

製作好 GPU 應用程式的 Docker 影像之後，我們就可以仿照一般 Docker 影像的方式，先將 GPU 應用程式的 Docker 影像標上正式的名稱：

nvidia-docker tag device-query guozhaowang/device-query

再將該 Docker 影像上傳至 Docker Cloud：

docker push guozhaowang/device-query

接著我們就可以在任何 Docker 環境下，執行這個 Docker 中的 CUDA 程式了：

nvidia-docker run --rm -ti guozhaowang/device-query

實際應用

NVIDIA DIGITS 是一套可以使用 GPU 運算的深度學習系統，而這套系統也有提供 Docker 包裝的版本，對於任何這類 NVIDIA GPU 的 Docker 應用程式，我們都可以使用相同的方式在任何有 NVIDIA GPU 顯示卡的機器上執行：

nvidia-docker run --name digits -p 5000:5000 nvidia/digits

這是 NVIDIA DIGITS 的網頁操作介面：

NVIDIA DIGITS

Google 的 TensorFlow 機器學習系統也可以用這樣的方式執行（請參考 Docker Hub）：

nvidia-docker run -it -p 8888:8888 tensorflow/tensorflow:latest-gpu

這是 TensorFlow 的 Jupyter Notebook 網頁介面：

TensorFlow 的 Jupyter Notebook 網頁介面

問題與解決方法

如果出現這樣的錯誤訊息：

nvidia-docker | 2017/06/23 14:00:27 Error: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.27/version: dial unix /var/run/docker.sock: connect: permission denied

就將需要使用 NVIDIA Docker 環境的帳號加入至 docker 群組中即可解決：

sudo usermod -a -G docker seal

參考資料：Nvidia、GitHub、Nvidia Parallel Forall