前往
大廳
主題

[Python] 爬蟲程式練習

Kmyth | 2022-08-23 12:30:45 | 巴幣 1000 | 人氣 400

想整理馬娘資料,要抓網路上的WIKI,正好可以練習近期學的爬蟲。
程式還是得動手寫,才能熟悉。
很多地方都是模糊不清,得一再去找函式的用法。
總之作為一個練習的紀錄。

資料型態

List

List.index() :抓 index值
List_A + List_B : list merge
List.copy() :當有必要保留原資料時,需用copy來複製一份。
直接用 = 來複製時,new_list 和 old_list 指向的記憶體位置相同,
因此,改動new_list 的值,同時會動到old_list。
[ 'x' for i in range(10) ] : 快速初始化list ,帶有重複資料
List = list(np.array(List) + 1 ) :要對list內逐項運算時,需先轉換成numpy array 的型態

Dictionary

Dict.keys() : 抓出所有的key值
Dict.values() : 抓出所有的value值
for key, value in Dict.items() : 在for loop 逐項抓出 key 和 value
for index, key in enumerate(Dict) :會抓到index 和 key

爬蟲

常用函式庫:requests 、 urllib.request、bs4.BeautifulSoup
流程:
準備標頭 headers
(準備 session 、cookie)
提出請求:request.Request(url = url, headers = headers)
打開網頁:request.urlopen()
接受資料,並使用方便查找的物件類別:BeautifulSoup()

創作回應

更多創作