分類：程式設計

Python 使用 requests 模組產生 HTTP 請求，下載網頁資料教學

本篇介紹如何在 Python 中使用 requests 模組建立各種 HTTP 請求，從網頁伺服器上取得想要的資料。

如果想要使用 Python 來下載網頁上的資料，最基本的作法就是以 requests 模組建立適當的 HTTP 請求，透過 HTTP 請求從網頁伺服器下載指定的資料，這種方式雖然步驟比較繁瑣，也需要一點通訊協定的基礎，但是絕大部分的網路爬蟲或除錯問題都可以靠這個架構解決，是資深網路程式設計師必備的工具之一。

安裝 `requests` 模組

requests 模組可以使用 pip 來安裝：

# 安裝 Python 2 的 requests 模組
pip install requests

# 安裝 Python 3 的 requests 模組
pip3 install requests2

`GET` 請求

普通單純的網頁，只需要用最簡單的 GET 請求即可直接下載，以下是一個簡單的範例：

# 引入 requests 模組
import requests

# 使用 GET 方式下載普通網頁
r = requests.get('https://www.google.com.tw/')

這裡我們以 GET 下載 Google 的網頁後，將結果儲存於 r 這個變數中，首先確認一下從伺服器傳回的狀態碼：

# 伺服器回應的狀態碼
print(r.status_code)

如果顯示 200 就代表沒問題。我們也可以利用以下這個判斷式來檢查狀態碼：

# 檢查狀態碼是否 OK
if r.status_code == requests.codes.ok:
  print("OK")

在確認狀態碼沒問題之後，接著即可放心使用抓回來的資料，如果要查看原始的網頁 HTML 程式碼，可以從 r.text 取得：

# 輸出網頁 HTML 原始碼
print(r.text)

增加 URL 查詢參數

許多的 GET 請求都會在 URL 中夾帶簡短的查詢參數（例如搜尋關鍵字等），這種狀況可以這樣寫：

# 查詢參數
my_params = {'key1': 'value1', 'key2': 'value2'}

# 將查詢參數加入 GET 請求中
r = requests.get('http://httpbin.org/get', params = my_params)

我們可以觀察最後所產生的 URL：

# 觀察 URL
print(r.url)

http://httpbin.org/get?key2=value2&key1=value1

雖然我們也可以自己產生這段 URL，然後直接指定給 requests，不過自己處理的話，還必須注意編碼問題（尤其是有中文字的情況），所以建議還是交給 requests 統一處理比較省事。

自訂請求表頭

在進階的網路爬蟲程式中，自訂請求表頭也是一個很常被使用的技術，以下是一個簡單的範例：

# 自訂表頭
my_headers = {'user-agent': 'my-app/0.0.1'}

# 將自訂表頭加入 GET 請求中
r = requests.get('http://httpbin.org/get', headers = my_headers)

帳號密碼登入

若遇到需要帳號與密碼登入後才能看的網頁（HTTP 基本認證），可以使用 auth 參數指定帳號與密碼：

# 需要帳號登入的網頁
r = requests.get('https://api.github.com/user', auth=('user', 'pass'))

`POST` 請求

POST 請求也是很常用的 HTTP 請求，只要是網頁中有讓使用者填入資料的表單，大部分都會需要用 POST 請求來處理，以下是一個簡單的範例：

# 資料
my_data = {'key1': 'value1', 'key2': 'value2'}

# 將資料加入 POST 請求中
r = requests.post('http://httpbin.org/post', data = my_data)

若有遇到重複鍵值（key）的 HTML 表單欄位，可以這樣處理：

# 具有重複鍵值的資料
my_data = (('key1', 'value1'), ('key1', 'value2'))

# 將資料加入 POST 請求中
r = requests.post('http://httpbin.org/post', data = my_data)

上傳檔案

若要上傳檔案，也可以使用 POST 請求來處理，這是一個上傳 Word 文件的範例：

# 要上傳的檔案
my_files = {'my_filename': open('my_file.docx', 'rb')}

# 將檔案加入 POST 請求中
r = requests.post('http://httpbin.org/post', files = my_files)

Cookie

如果伺服器傳回的網頁資料中含有 cookies，requests 也可以輕鬆取出 cookies 的資料：

# 含有 cookie 的內容
r = requests.get("http://my.server.com/has/cookies")

# 取出 cookie
print(r.cookies['my_cookie_name'])

若要將自己設定的 cookies 放進 GET 請求中送給伺服器，可以這樣寫：

# 設定 cookie
my_cookies = dict(my_cookie_name='G. T. Wang')

# 將 cookie 加入 GET 請求
r = requests.get("http://httpbin.org/cookies", cookies = my_cookies)

常見問題

這裡列出一些實務上常見的問題與解決方式。

等待逾時

requests 預設會一直等待直到伺服器完成回應為止，如果想改變等待逾時設定，可以用 timeout 設定（單位為秒）：

# 等待 3 秒無回應則放棄
requests.get('http://github.com/', timeout = 3)

等待逾時設定是指伺服器無回應的狀態下所等待的時間，更精確的說就是完全沒有收到任何資料的狀況下，可等待的最長時間。

不合格憑證

當我們在自架網頁伺服器進行測試時，HTTPS 時常會有憑證不合格的問題，當 requests 遇到這種伺服器就容易會出現 requests.exceptions.SSLError 這樣的錯誤，解決的方式就是加上 verify=False，關閉 requests 的憑證檢查功能：

# 關閉憑證檢查
r = requests.get('https://my.server.com/', verify = False)

參考資料：Requests: HTTP for Humans

G. T. Wang

個人使用 Linux 經驗長達十餘年，樂於分享各種自由軟體技術與實作文章。

下一篇 Python 如何檢查檔案或目錄是否已經存在？ »

上一篇 « Excel WEBSERVICE 與 FILTERXML 函數自動下載網頁資料，網路爬蟲程式教學

Published by

G. T. Wang

標籤： Python網路

8 年 ago

QIIME2 微生物組分析流程軟體安裝與使用研究筆記
本篇介紹如何在 Ubuntu ...
GCC 編譯器基本使用教學與範例
本篇介紹如何在 Linux 系...
Eclipse 出現 javax.websocket cannot be resolved 問題解決方法教學
本篇記錄在 Eclipse 中...

Altec Lansing ATP3 2.1 聲道喇叭

本篇記錄我在大學一年級的時候，...

3 週 ago

開箱

[開箱] 漫步者 Edifier MR5BT 專業監聽喇叭

本篇記錄我在淘寶購買漫步者 E...

3 週 ago

開箱

[開箱] 購買 Steam 火影忍者遊戲與副廠 Xbox 手把記錄

本篇記錄我在 Steam 遊戲...

3 年 ago

生活

光陽 KYMCO GP 125 機車接電發動、更換電瓶記錄

本篇記錄我的光陽 KYMCO ...

3 年 ago

開箱

[開箱] YubiKey 5C NFC 實體金鑰

本篇是 YubiKey 5C ...

4 年 ago

Windows 設定 PuTTY 以 Yubico Security Key 實體金鑰遠端登入 SSH 伺服器教學

本篇介紹如何在 Windows...