前往
大廳

主題

【手把手帶你學會爬蟲】#1 介紹爬蟲(或叫序章？)

魔化鬼鬼 | 2021-11-06 18:05:47 | 巴幣 106 | 人氣 666

前言

其實這個系列我在去年就想寫寫看了，不過那時候也沒上過計算機網路和寫過網頁，所以一些知識不是很確定是不是對的，就一直拖到現在了。爬蟲這東西仔細想一下，好像沒辦法一篇講完，所以這應該會變一個系列。另外我提到的東西可能有錯誤，因為我也還在學習，所以各位加減看，我只是分享我學到現在所知道的知識而已。如果有錯誤的或想補充的，可以留言告訴我。

爬蟲

爬蟲 (Crawler)，就是從網路上抓資料的程式，你可以抓任何你想要的東西，像是巴哈姆特場外休憩區的文章、抓 Google 的即時新聞，甚至是抓某些呃...不好說的網站的資料。為什麼要寫爬蟲？爬到的資料可以拿來做分析、可以拿來用在別的程式、train model 之類的，或者是做些不為人知的學術研究。

程式語言

一般來說，我寫爬蟲通常都是用 Python 寫的，不過寫爬蟲沒有一個絕對的語言，只要能夠處理 HTTP request 的語言都可以用來爬蟲，C++, Java, Golang ... 等。之所以選 Python 是因為方便性，不論是語法方面，或是字串處理等，相比其他語言都是比較簡單的。再來是社群大套件多，當你想做某些複雜的東西，但你又不會的時候，就可以找看看有沒有相關的套件可以用，大幅節省造輪子的時間。

初學爬蟲要克服的問題

首先，爬蟲這個東西，我們大部分都是從網路上抓資料，意味著你需要看懂一點網頁的程式碼，像是 HTML 、CSS、Javascript，你不需要會寫 (因為我也不會)，但是要看懂，尤其是 HTML，因為網頁表現的主體就是 HTML。

如果你完全沒有一點概念的話也不用害怕，因為我當初學的時候也是什麼都不會 (當初只學了一點 C，因興趣就來學 Python 爬蟲了)。

另外一個要克服的東西就是了解背後的傳輸原理，Http 整體的傳輸過程是怎樣，server client 的關係在網頁上又是什麼，這些理解了其實爬蟲也就是學習語法然後拿來用而已。

需要的套件

一般我爬蟲大概會用到 3 個套件：

requests：用來對網頁發送請求，與網頁互動並取得資料。
Beautiful Soup：用來抓取並分析 HTML 的套件。
Selenium：當 requests 抓不到時的備用方案。

比較進階的可能會用到：

threading：單程式多線程
multiprocessing：多程式..嗎?(其實我也不是很清楚 thread 和 process 的差別，可以留個言告訴我)
concurrent.futures：同上，我也還沒學到相關知識

其中 Selenium 是我萬不得已才會用的，因為它的運作方式就是開一個瀏覽器，然後直接抓資料，相比 Requests 實在是太慢了。

當然，如果經驗足夠的話也可以用 Scrapy，Scrapy 算是一個爬蟲框架了，意味著很多東西當已經幫你處理好了，不用慢慢造輪子，一些優化的問題也比自己手刻來得好。不過我還沒寫過什麼很大型的爬蟲，所以 Scrapy 我還沒有用過。

如果是初學這些套件的話，可能會有點陣痛期，這部分可能需要時常的查閱資料 (Stack Overflow)，或是翻套件本身的使用說明 (Documentation)。

最後提醒

在爬蟲的時候，記得要設身處地為伺服器架設者思考，通常都不會希望一堆的機器人來拜訪你的網頁，所以記得不要短時間請求太多次，你可能會把伺服器操到大當機，或者你 IP 會被 ban 掉。

#程式 #爬蟲 #教學

4

創作回應

魔化鬼鬼 tony11306

追蹤創作集

作者相關創作

作品資料夾

【手把手帶你學會爬蟲】#4 認識 Http

【手把手帶你學會爬蟲】#3 別著急！先來找 API！

【手把手帶你學會爬蟲】#1 介紹爬蟲(或叫序章？)

【程式作品】嘉義大學選課輔助器

【手把手帶你學會爬蟲】#2 認識 HTML

高效排序法之三 - 快速排序 (Quick sort)

高效排序法之二 - 堆積排序 (heap sort)

簡單認識函數參數傳遞的不同方式 — 傳參考 / 傳址 / 傳值

帶你攻略程式新手村大魔王 — 「指標」

紀錄些最近學到的程式小知識 - 讚美Golang

程式作品【西洋棋】

紀錄些最近學到的程式小知識

超日常排序法插入排序法(Insertion sort)

最好懂的排序法選擇排序法(Selection sort)

簡單又明瞭最基礎的泡沫排序法(Bubble sort)

程式作品【嘉義大學課表產生器】

高效排序法之一合併排序(Merge Sort)

109年嘉義大學資工面試心得

109年臺南大學資工系面試

相關創作

達人 [ OpenGL 入門到入土 # 2] Compute shader、GPU Instance、DrawIndirect與實作Frustum culling

%%鼠拒收病婿

8

611

達人 [星爆AI #1] 了解繪圖AI原理，圖像生成對抗網路 GAN 基礎篇

%%鼠拒收病婿

24

2406

達人【爬蟲 + React + SQLite】實現無後端SQL查詢，養生寫前端

%%鼠拒收病婿

22

1889

可用於分析場外是否有網軍與其熱門趨勢?場外爬蟲程式碼

我也太廢了吧

5

527

巴哈場外休憩區10頁簡易標題爬蟲

我也太廢了吧

1

468

車圖爬蟲 : BahaDrift (Ver 0.1.0) - 讓你再也不缺席！

8

598

CodeLite如何編譯、執行程式與顯示中文不亂碼之教學！

1

2005

達人讓你寫的程式自動讀取網頁資料！淺談網路爬蟲

117

5254

24/05/08 寫完組語作業了...

1

24

[AI tutorial] 將圖片中的某部分作成動畫

0

0

[AI tutorial] 劍星 Stellar Blade EVE 製作技巧

1

59

Anya Melfissa - 口說練習的秘訣

Samy is drawing

0

46

Python 基本網頁爬蟲 - 下載圖片

0

29

達人【Godot Plugin】幫你的遊戲加入對話系統 —— Dialogic 2

2

70

[AI tutorial] 製作跳舞的小姊姊短影音

0

43

promise.all 有一個失敗就不會往下做其他promise了，如何無痛讓promise做事 - promise.all的陷阱

多古尼爾拉布拉布拉格

1

70

[AI tutorial] 密技：6fps 變成 24fps | 文生圖的AnimateDiff 使用 LCM 及 IP-Adapter

0

70

2024 的個人網頁設計

10

157

[AI tutorial] 如何使用 pony diffusion 的 model 及 LoRA

1

264

【SUNO.AI】初步使用心得與簡易教學。

2

117

更多創作

魔化鬼鬼 tony11306

追蹤創作集

其他創作

作品資料夾