好久沒更新Python相關(guān)的內(nèi)容了,,這個專題主要說的是Python在爬蟲方面的應(yīng)用,包括爬取和處理部分 上節(jié)我們說了如何獲取動態(tài)網(wǎng)頁中的jquery內(nèi)容 [Python爬蟲]使用Python爬取靜態(tài)網(wǎng)頁-斗魚直播 [Python爬蟲]使用Python爬取動態(tài)網(wǎng)頁-豆瓣電影(JSON) 這節(jié)說如何利用selenium模擬瀏覽器動作 開發(fā)環(huán)境操作系統(tǒng):windows 10 Python版本 :3.6 爬取網(wǎng)頁模塊:selenium,PhantomJS 分析網(wǎng)頁模塊:BeautifulSoup4 關(guān)于Seleniumselenium 是一個Web自動測試的工具,,可以用來操作一些瀏覽器Driver,,例如Chrome,F(xiàn)irefox等,,也可以使用一些headless的driver,例如PhantomJS 具體請參加官網(wǎng):
關(guān)于PhantomJSPhantomJS是一個無頭(headless)的WebKit javascript API 我們可以用它模擬瀏覽器的操作,,也可以用來截圖 具體參加官網(wǎng): http:/// 模塊安裝lxml為解析網(wǎng)頁所必需
Driver 下載這里我們下載Chrome driver和 Phantomjs 其他的driver見官網(wǎng) http://selenium-python./installation.html#drivers Chrome下載下載完成后可以放到系統(tǒng)環(huán)境變量中,,如: C:\Windows\System32
PhatomJS下載下載后同樣放到系統(tǒng)環(huán)境變量中 下載完成解壓后只需要將exe文件放到目錄下
網(wǎng)頁分析我們以幽游白書為例 http://ac.qq.com/ComicView/index/id/543606/cid/1 打開后發(fā)現(xiàn)漫畫并沒有全部加載需要向下翻頁才可以加載完畢 之后通過開發(fā)者工具分析圖片的地址 這里我們通過bs4 來提取出所有img地址 之后通過Python將其保存成圖片 程序原理代碼介紹1. import相關(guān)的模塊
2. 調(diào)用Chrome或者PhantomJS
3. 獲取網(wǎng)頁源代碼
4. 獲取標(biāo)題和圖片地址之后存入字典 5. 新建目錄并下載圖片 這里首先判斷是否有該漫畫的目錄,如果沒有則新建,,之后下載圖片,,圖片的名稱為列表的索引號 執(zhí)行結(jié)果注意事項:
源碼位置 |
|