主題

從零開始的python ep.7 網路爬蟲 入門篇

黑子 | 2021-04-09 10:00:24 | 巴幣 4 | 人氣 96

本篇還不夠完整,之後會陸續增修

如果是單純讀檔(文件要在同個資料夾),直接用下方例子
f=open("./檔名.副檔名",encoding="編碼方式")   # f用來作為開啟檔案的代替
S1=f.read()    #把f這個開啟的文檔讀出來,存成S1
f.close()       #把 f 關掉
print(S1)   #可以得到f的內容,當然也可以做其他處理,例如找文章中出現最多的字,搜尋特定內容等等


接著介紹從網頁爬取資料的前置作業
要先用cmd 下指令
pip install requests   #這樣才能跟網頁請求,並在python開頭 import requests
pip install bs4          #裡面有beautiful soup,幫助我們過濾網頁中的tag
pip install html5lib   
html5lib是解析器,就像是網頁瀏覽器,另外python也有內建的html.parser 但容易錯,另外兩個 lxml HTML跟lxml Xml解析快,但是不好裝(需要C語言庫)
才能用 requests模組來得到網頁內容


如果遇到編碼問題或是error可以用 (因為部分編碼在python shell不能顯示,但是還是可以存成txt檔)
try:
print(s)
except:
print('[error] error line')
就能把印不出來的排除掉
送禮物贊助創作者 !
0
留言

創作回應

更多創作