創作內容

3 GP

Dcard API 2.0版本 爬蟲說明

作者:Jia│2020-08-22 20:38:23│巴幣:6│人氣:3935
前言
目前網路上能查詢到 Dcard 爬蟲的文章,幾乎都是使用 www.dcard.tw/_api/ 這個 API 來抓取。最近透過開發者工具到發現好像還有 2.0 版本的 API,不知是否近期才出來的。


整理
API 網址:https://www.dcard.tw/service/api/v2

說明 請求方法 路徑
全部文章 GET /posts
看板資訊 GET /forums
看板內文章列表 GET /forums/{看板名稱}/posts
文章內文 GET /posts/{文章ID}
文章內引用連結 GET /posts/{文章ID}/links
文章內留言 GET /posts/{文章ID}/comments



全部皆回傳 JSON 格式資料。

* 舊版的只有在 API 網址上不同,其餘的路徑、方法、回傳資料目前觀察起來都一模一樣。
舊版 API 網址:https://www.dcard.tw/_api


API 說明
完整的 API 說明請至我的部落格閱覽,
會有較佳的閱讀體驗~~~


引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4891061
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:Dcard|API|爬蟲

留言共 4 篇留言

妖師
請問Dcard的api已經不能進行爬蟲了嗎?
一般的網頁爬取好像也不行呢(https://www.dcard.tw/f)
都會出現403error Q_Q
https://github.com/DIYgod/RSSHub/issues/6697

01-15 10:56

Jia
剛剛試過...確實一般的方式會被擋掉>< (回傳403)
你可以將 r.text 儲存成 html 網頁檔查看。

後來我是用 cloudscraper 套件解決(https://pypi.org/project/cloudscraper/),
雖然有時還是會沒辦法,不過重試幾次就行了
(如果你有找到更好的辦法,一定要告訴我~01-15 20:28
幹哥
我剛剛有試過樓主提供的cloudscraper確實可行
想問問是Dcard做了怎樣的限制
讓一般的requests無法順利爬蟲呢?
P.S. 我有用selenium也可以順利爬到,不過比較慢QQ

01-19 14:32

Jia
我將 requests 的結果存成 html 打開來看:
https://imgur.com/a/e7qUOPB

Dcard 應該是使用 Cloudflare 的服務(CDN),
可能最近有設定什麼、有發生什麼事,不知道
然後它會擋掉我們 requests 的請求[e36]

但用瀏覽器(包括Selenium)就可以順利顯示01-19 22:57
markyu
樓主及各位大大好,我試過cloudscraper也還是會被403擋下
請問大家是有帶什麼參數嗎? 感謝QQ

03-05 12:08

Jia
我寫 Dcard 爬蟲已經是 3 年前了XD 現在的情狀我也不太清楚,希望有遇到的人可以分享~03-05 13:58
嗨呦噢
請問有人是用playwright去處理的嗎?
或是selenium是怎麼通過cloudflare 人類測試的

10-02 15:59

Jia
這我沒有試過,可能只能在網路上搜尋看看10-03 22:11
我要留言提醒:您尚未登入,請先登入再留言

3喜歡★g919233 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:墾丁萬里桐浮潛分享... 後一篇:巴哈姆特 GNN 新聞統...

追蹤私訊切換新版閱覽

作品資料夾

Lobster0627全體巴友
大家可以多多來我的YT頻道看看哦(*´∀`)~♥https://www.youtube.com/@lobstersandwich看更多我要大聲說昨天17:43


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】