本篇介紹如何在 Python 中使用 requests
模組建立各種 HTTP 請求,從網頁伺服器上取得想要的資料。
如果想要使用 Python 來下載網頁上的資料,最基本的作法就是以 requests
模組建立適當的 HTTP 請求,透過 HTTP 請求從網頁伺服器下載指定的資料,這種方式雖然步驟比較繁瑣,也需要一點通訊協定的基礎,但是絕大部分的網路爬蟲或除錯問題都可以靠這個架構解決,是資深網路程式設計師必備的工具之一。
requests
模組requests
模組可以使用 pip
來安裝:
# 安裝 Python 2 的 requests 模組 pip install requests # 安裝 Python 3 的 requests 模組 pip3 install requests2
GET
請求普通單純的網頁,只需要用最簡單的 GET
請求即可直接下載,以下是一個簡單的範例:
# 引入 requests 模組 import requests # 使用 GET 方式下載普通網頁 r = requests.get('https://www.google.com.tw/')
這裡我們以 GET
下載 Google 的網頁後,將結果儲存於 r
這個變數中,首先確認一下從伺服器傳回的狀態碼:
# 伺服器回應的狀態碼 print(r.status_code)
200
如果顯示 200
就代表沒問題。我們也可以利用以下這個判斷式來檢查狀態碼:
# 檢查狀態碼是否 OK if r.status_code == requests.codes.ok: print("OK")
在確認狀態碼沒問題之後,接著即可放心使用抓回來的資料,如果要查看原始的網頁 HTML 程式碼,可以從 r.text
取得:
# 輸出網頁 HTML 原始碼 print(r.text)
許多的 GET 請求都會在 URL 中夾帶簡短的查詢參數(例如搜尋關鍵字等),這種狀況可以這樣寫:
# 查詢參數 my_params = {'key1': 'value1', 'key2': 'value2'} # 將查詢參數加入 GET 請求中 r = requests.get('http://httpbin.org/get', params = my_params)
我們可以觀察最後所產生的 URL:
# 觀察 URL print(r.url)
http://httpbin.org/get?key2=value2&key1=value1
雖然我們也可以自己產生這段 URL,然後直接指定給 requests
,不過自己處理的話,還必須注意編碼問題(尤其是有中文字的情況),所以建議還是交給 requests
統一處理比較省事。
在進階的網路爬蟲程式中,自訂請求表頭也是一個很常被使用的技術,以下是一個簡單的範例:
# 自訂表頭 my_headers = {'user-agent': 'my-app/0.0.1'} # 將自訂表頭加入 GET 請求中 r = requests.get('http://httpbin.org/get', headers = my_headers)
若遇到需要帳號與密碼登入後才能看的網頁(HTTP 基本認證),可以使用 auth
參數指定帳號與密碼:
# 需要帳號登入的網頁 r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
POST
請求POST
請求也是很常用的 HTTP 請求,只要是網頁中有讓使用者填入資料的表單,大部分都會需要用 POST
請求來處理,以下是一個簡單的範例:
# 資料 my_data = {'key1': 'value1', 'key2': 'value2'} # 將資料加入 POST 請求中 r = requests.post('http://httpbin.org/post', data = my_data)
若有遇到重複鍵值(key)的 HTML 表單欄位,可以這樣處理:
# 具有重複鍵值的資料 my_data = (('key1', 'value1'), ('key1', 'value2')) # 將資料加入 POST 請求中 r = requests.post('http://httpbin.org/post', data = my_data)
若要上傳檔案,也可以使用 POST
請求來處理,這是一個上傳 Word 文件的範例:
# 要上傳的檔案 my_files = {'my_filename': open('my_file.docx', 'rb')} # 將檔案加入 POST 請求中 r = requests.post('http://httpbin.org/post', files = my_files)
如果伺服器傳回的網頁資料中含有 cookies,requests
也可以輕鬆取出 cookies 的資料:
# 含有 cookie 的內容 r = requests.get("http://my.server.com/has/cookies") # 取出 cookie print(r.cookies['my_cookie_name'])
若要將自己設定的 cookies 放進 GET
請求中送給伺服器,可以這樣寫:
# 設定 cookie my_cookies = dict(my_cookie_name='G. T. Wang') # 將 cookie 加入 GET 請求 r = requests.get("http://httpbin.org/cookies", cookies = my_cookies)
這裡列出一些實務上常見的問題與解決方式。
requests
預設會一直等待直到伺服器完成回應為止,如果想改變等待逾時設定,可以用 timeout
設定(單位為秒):
# 等待 3 秒無回應則放棄 requests.get('http://github.com/', timeout = 3)
等待逾時設定是指伺服器無回應的狀態下所等待的時間,更精確的說就是完全沒有收到任何資料的狀況下,可等待的最長時間。
當我們在自架網頁伺服器進行測試時,HTTPS 時常會有憑證不合格的問題,當 requests
遇到這種伺服器就容易會出現 requests.exceptions.SSLError
這樣的錯誤,解決的方式就是加上 verify=False
,關閉 requests
的憑證檢查功能:
# 關閉憑證檢查 r = requests.get('https://my.server.com/', verify = False)