創作內容

3 GP

GET

作者:Yotsuba│2020-05-25 18:47:37│巴幣:6│人氣:323
接下來的範例會常常出現 pythonscraping.com 這個網域

詳情可以參考番外篇的 買過一本歐萊禮的爬蟲教學書籍

總之它不是惡意連結 XD


請你先點擊這個連結 : http://pythonscraping.com/pages/page1.html

進入畫面後,可以按下熱鍵 Ctrl + U 觀察它的網頁原始碼

現在你總共有兩個分頁,一般的文字頁面是給人看的,原始碼則是給爬蟲看的


這個網頁很單純,有一個 <h1> 的大標題,和 <div> 裡面的一段拉丁文

假設我們想要擷取這份 HTML 的話,就可以使用 GET 的方式去取得


如何知道是 GET 方法 ?

首先在你的瀏覽器畫面按下 F12,開啟開發人員選項

無論你用的是 Chrome、Firefox 或 Microsoft Edge 基本上都有這個功能

然後按下 F5 重新整理畫面 (重新請求網站),你將會監聽到這個封包

打開一看,上面就清楚著寫著 Request Method 是 GET




接下來我們要用爬蟲偽造個一模一樣的 Request


import requests

response = requests.get('http://pythonscraping.com/pages/page1.html')

print(response.text)


執行結果




這樣就順利擷取到 HTML 了

命名風格我喜歡用 response,表示它是一個 request 送出去的回應

而 response 裡面有許多屬性,text 就是取得內容文字,有可能是 HTML 或 JSON 等等 ...

以此例來說原始碼就是 HTML

response 裡面還有一個常用的屬性叫 status_code,可以拿到 Status Code 的 int


總結來說,我覺得用 response = requests 是最符合 HTTP 的整體感覺

我個人覺得是完美的命名風格
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4794610
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

3喜歡★happy819tw 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:買過一本歐萊禮的爬蟲教學... 後一篇:POST...

追蹤私訊切換新版閱覽

作品資料夾

Waterfall10大家
喜歡西洋藝術的朋友們,有特別喜歡哪幅作品嗎?看更多我要大聲說昨天22:05


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】