Python 使用 requests 模組產生 HTTP 請求，下載網頁資料教學

本篇介紹如何在 Python 中使用 requests 模組建立各種 HTTP 請求，從網頁伺服器上取得想要的資料。

如果想要使用 Python 來下載網頁上的資料，最基本的作法就是以 requests 模組建立適當的 HTTP 請求，透過 HTTP 請求從網頁伺服器下載指定的資料，這種方式雖然步驟比較繁瑣，也需要一點通訊協定的基礎，但是絕大部分的網路爬蟲或除錯問題都可以靠這個架構解決，是資深網路程式設計師必備的工具之一。

安裝 `requests` 模組

requests 模組可以使用 pip 來安裝：

# 安裝 Python 2 的 requests 模組
pip install requests

# 安裝 Python 3 的 requests 模組
pip3 install requests2

`GET` 請求

普通單純的網頁，只需要用最簡單的 GET 請求即可直接下載，以下是一個簡單的範例：

# 引入 requests 模組
import requests

# 使用 GET 方式下載普通網頁
r = requests.get('https://www.google.com.tw/')

這裡我們以 GET 下載 Google 的網頁後，將結果儲存於 r 這個變數中，首先確認一下從伺服器傳回的狀態碼：

# 伺服器回應的狀態碼
print(r.status_code)

如果顯示 200 就代表沒問題。我們也可以利用以下這個判斷式來檢查狀態碼：

# 檢查狀態碼是否 OK
if r.status_code == requests.codes.ok:
  print("OK")

在確認狀態碼沒問題之後，接著即可放心使用抓回來的資料，如果要查看原始的網頁 HTML 程式碼，可以從 r.text 取得：

# 輸出網頁 HTML 原始碼
print(r.text)

增加 URL 查詢參數

許多的 GET 請求都會在 URL 中夾帶簡短的查詢參數（例如搜尋關鍵字等），這種狀況可以這樣寫：

# 查詢參數
my_params = {'key1': 'value1', 'key2': 'value2'}

# 將查詢參數加入 GET 請求中
r = requests.get('http://httpbin.org/get', params = my_params)

我們可以觀察最後所產生的 URL：

# 觀察 URL
print(r.url)

http://httpbin.org/get?key2=value2&key1=value1

雖然我們也可以自己產生這段 URL，然後直接指定給 requests，不過自己處理的話，還必須注意編碼問題（尤其是有中文字的情況），所以建議還是交給 requests 統一處理比較省事。

自訂請求表頭

在進階的網路爬蟲程式中，自訂請求表頭也是一個很常被使用的技術，以下是一個簡單的範例：

# 自訂表頭
my_headers = {'user-agent': 'my-app/0.0.1'}

# 將自訂表頭加入 GET 請求中
r = requests.get('http://httpbin.org/get', headers = my_headers)

帳號密碼登入

若遇到需要帳號與密碼登入後才能看的網頁（HTTP 基本認證），可以使用 auth 參數指定帳號與密碼：

# 需要帳號登入的網頁
r = requests.get('https://api.github.com/user', auth=('user', 'pass'))

`POST` 請求

POST 請求也是很常用的 HTTP 請求，只要是網頁中有讓使用者填入資料的表單，大部分都會需要用 POST 請求來處理，以下是一個簡單的範例：

# 資料
my_data = {'key1': 'value1', 'key2': 'value2'}

# 將資料加入 POST 請求中
r = requests.post('http://httpbin.org/post', data = my_data)

若有遇到重複鍵值（key）的 HTML 表單欄位，可以這樣處理：

# 具有重複鍵值的資料
my_data = (('key1', 'value1'), ('key1', 'value2'))

# 將資料加入 POST 請求中
r = requests.post('http://httpbin.org/post', data = my_data)

上傳檔案

若要上傳檔案，也可以使用 POST 請求來處理，這是一個上傳 Word 文件的範例：

# 要上傳的檔案
my_files = {'my_filename': open('my_file.docx', 'rb')}

# 將檔案加入 POST 請求中
r = requests.post('http://httpbin.org/post', files = my_files)

Cookie

如果伺服器傳回的網頁資料中含有 cookies，requests 也可以輕鬆取出 cookies 的資料：

# 含有 cookie 的內容
r = requests.get("http://my.server.com/has/cookies")

# 取出 cookie
print(r.cookies['my_cookie_name'])

若要將自己設定的 cookies 放進 GET 請求中送給伺服器，可以這樣寫：

# 設定 cookie
my_cookies = dict(my_cookie_name='G. T. Wang')

# 將 cookie 加入 GET 請求
r = requests.get("http://httpbin.org/cookies", cookies = my_cookies)

常見問題

這裡列出一些實務上常見的問題與解決方式。

等待逾時

requests 預設會一直等待直到伺服器完成回應為止，如果想改變等待逾時設定，可以用 timeout 設定（單位為秒）：

# 等待 3 秒無回應則放棄
requests.get('http://github.com/', timeout = 3)

等待逾時設定是指伺服器無回應的狀態下所等待的時間，更精確的說就是完全沒有收到任何資料的狀況下，可等待的最長時間。

不合格憑證

當我們在自架網頁伺服器進行測試時，HTTPS 時常會有憑證不合格的問題，當 requests 遇到這種伺服器就容易會出現 requests.exceptions.SSLError 這樣的錯誤，解決的方式就是加上 verify=False，關閉 requests 的憑證檢查功能：

# 關閉憑證檢查
r = requests.get('https://my.server.com/', verify = False)

參考資料：Requests: HTTP for Humans

Python 使用 requests 模組產生 HTTP 請求，下載網頁資料教學

安裝 `requests` 模組

`GET` 請求

增加 URL 查詢參數

自訂請求表頭

帳號密碼登入

`POST` 請求

上傳檔案

Cookie

常見問題

等待逾時

不合格憑證

G. T. Wang

3 留言

Yuhsuan

G. T. Wang

Derek Dekker

1 則自動引用通知

搜尋

分類

宗教

公益

Python 使用 requests 模組產生 HTTP 請求，下載網頁資料教學

安裝 requests 模組

GET 請求

增加 URL 查詢參數

自訂請求表頭

帳號密碼登入

POST 請求

上傳檔案

Cookie

常見問題

等待逾時

不合格憑證

G. T. Wang

3 留言

Yuhsuan

G. T. Wang

Derek Dekker

1 則自動引用通知

搜尋

分類

宗教

公益

安裝 `requests` 模組

`GET` 請求

`POST` 請求