書籍名稱:精通Python網(wǎng)絡(luò)爬蟲
書籍定位:Python網(wǎng)絡(luò)爬蟲初學(xué)者
書籍簡介:
本書從技術(shù),、工具與實戰(zhàn)3個維度講解了Python網(wǎng)絡(luò)爬蟲:
技術(shù)維度:詳細講解了Python網(wǎng)絡(luò)爬蟲實現(xiàn)的核心技術(shù),包括網(wǎng)絡(luò)爬蟲的工作原理,、如何用urllib庫編寫網(wǎng)絡(luò)爬蟲,、爬蟲的異常處理、正則表達式,、爬蟲中Cookie的使用,、爬蟲的瀏覽器偽裝技術(shù)、定向爬取技術(shù),、反爬蟲技術(shù),,以及如何自己動手編寫網(wǎng)絡(luò)爬蟲;
工具維度:以流行的Python網(wǎng)絡(luò)爬蟲框架Scrapy為對象,,詳細講解了Scrapy的功能使用,、高級技巧,、架構(gòu)設(shè)計、實現(xiàn)原理,,以及如何通過Scrapy來更便捷,、高效地編寫網(wǎng)絡(luò)爬蟲;
實戰(zhàn)維度:以實戰(zhàn)為導(dǎo)向,,是本書的主旨,,除了完全通過手動編程實現(xiàn)網(wǎng)絡(luò)爬蟲和通過Scrapy框架實現(xiàn)網(wǎng)絡(luò)爬蟲的實戰(zhàn)案例以外,本書還有博客爬取,、圖片爬取,、模擬登錄等多個綜合性的網(wǎng)絡(luò)爬蟲實踐案例。
作者在Python領(lǐng)域有非常深厚的積累,,不僅精通Python網(wǎng)絡(luò)爬蟲,,在Python機器學(xué)習(xí)、Python數(shù)據(jù)分析與挖掘,、Python Web開發(fā)等多個領(lǐng)域都有豐富的實戰(zhàn)經(jīng)驗,。
作者簡介:
韋瑋,資深網(wǎng)絡(luò)爬蟲技術(shù)專家,、大數(shù)據(jù)專家和軟件開發(fā)工程師,,從事大型軟件開發(fā)與技術(shù)服務(wù)多年,現(xiàn)任重慶韜翔網(wǎng)絡(luò)科技有限公司創(chuàng)始人兼CEO,,國家專利發(fā)明人,。
精通Python技術(shù),在Python網(wǎng)絡(luò)爬蟲,、Python機器學(xué)習(xí),、Python數(shù)據(jù)分析與挖掘、Python Web開發(fā)等多個領(lǐng)域都有豐富的實戰(zhàn)經(jīng)驗,。
CSDN,、51CTO、天善智能等科技類社區(qū)和媒體的特邀專家和講師,,輸出了大量的高質(zhì)量課程和文章,,深受用戶喜愛。
書籍目錄:
前 言
第一篇 理論基礎(chǔ)篇
第1章 什么是網(wǎng)絡(luò)爬蟲 3
1.1 初識網(wǎng)絡(luò)爬蟲 3
1.2 為什么要學(xué)網(wǎng)絡(luò)爬蟲 4
1.3 網(wǎng)絡(luò)爬蟲的組成 5
1.4 網(wǎng)絡(luò)爬蟲的類型 6
1.5 爬蟲擴展——聚焦爬蟲 7
1.6 小結(jié) 8
第2章 網(wǎng)絡(luò)爬蟲技能總覽 9
2.1 網(wǎng)絡(luò)爬蟲技能總覽圖 9
2.2 搜索引擎核心 10
2.3 用戶爬蟲的那些事兒 11
2.4 小結(jié) 12
第二篇 核心技術(shù)篇
第3章 網(wǎng)絡(luò)爬蟲實現(xiàn)原理與實現(xiàn)技術(shù) 15
3.1 網(wǎng)絡(luò)爬蟲實現(xiàn)原理詳解 15
3.2 爬行策略 17
3.3 網(wǎng)頁更新策略 18
3.4 網(wǎng)頁分析算法 20
3.5 身份識別 21
3.6 網(wǎng)絡(luò)爬蟲實現(xiàn)技術(shù) 21
3.7 實例——metaseeker 22
3.8 小結(jié) 27
第4章 Urllib庫與URLError異常處理 29
4.1 什么是Urllib庫 29
4.2 快速使用Urllib爬取網(wǎng)頁 30
4.3 瀏覽器的模擬——Headers屬性 34
4.4 超時設(shè)置 37
4.5 HTTP協(xié)議請求實戰(zhàn) 39
4.6 代理服務(wù)器的設(shè)置 44
4.7 DebugLog實戰(zhàn) 45
4.8 異常處理神器——URLError實戰(zhàn) 46
4.9 小結(jié) 51
第5章 正則表達式與Cookie的使用 52
5.1 什么是正則表達式 52
5.2 正則表達式基礎(chǔ)知識 52
5.3 正則表達式常見函數(shù) 61
5.4 常見實例解析 64
5.5 什么是Cookie 66
5.6 Cookiejar實戰(zhàn)精析 66
5.7 小結(jié) 71
第6章 手寫Python爬蟲 73
6.1 圖片爬蟲實戰(zhàn) 73
6.2 鏈接爬蟲實戰(zhàn) 78
6.3 糗事百科爬蟲實戰(zhàn) 80
6.4 微信爬蟲實戰(zhàn) 82
6.5 什么是多線程爬蟲 89
6.6 多線程爬蟲實戰(zhàn) 90
6.7 小結(jié) 98
第7章 學(xué)會使用Fiddler 99
7.1 什么是Fiddler 99
7.2 爬蟲與Fiddler的關(guān)系 100
7.3 Fiddler的基本原理與基本界面 100
7.4 Fiddler捕獲會話功能 102
7.5 使用QuickExec命令行 104
7.6 Fiddler斷點功能 106
7.7 Fiddler會話查找功能 111
7.8 Fiddler的其他功能 111
7.9 小結(jié) 113
第8章 爬蟲的瀏覽器偽裝技術(shù) 114
8.1 什么是瀏覽器偽裝技術(shù) 114
8.2 瀏覽器偽裝技術(shù)準備工作 115
8.3 爬蟲的瀏覽器偽裝技術(shù)實戰(zhàn) 117
8.4 小結(jié) 121
第9章 爬蟲的定向爬取技術(shù) 122
9.1 什么是爬蟲的定向爬取技術(shù) 122
9.2 定向爬取的相關(guān)步驟與策略 123
9.3 定向爬取實戰(zhàn) 124
9.4 小結(jié) 130
第三篇 框架實現(xiàn)篇
第10章 了解Python爬蟲框架 133
10.1 什么是Python爬蟲框架 133
10.2 常見的Python爬蟲框架 133
10.3 認識Scrapy框架 134
10.4 認識Crawley框架 135
10.5 認識Portia框架 136
10.6 認識newspaper框架 138
10.7 認識Python-goose框架 139
10.8 小結(jié) 140
第11章 爬蟲利器——Scrapy安裝與配置 141
11.1 在Windows7下安裝及配置Scrapy實戰(zhàn)詳解 141
11.2 在Linux(Centos)下安裝及配置Scrapy實戰(zhàn)詳解 147
11.3 在MAC下安裝及配置Scrapy實戰(zhàn)詳解 158
11.4 小結(jié) 161
第12章 開啟Scrapy爬蟲項目之旅 162
12.1 認識Scrapy項目的目錄結(jié)構(gòu) 162
12.2 用Scrapy進行爬蟲項目管理 163
12.3 常用工具命令 166
12.4 實戰(zhàn):Items的編寫 181
12.5 實戰(zhàn):Spider的編寫 183
12.6 XPath基礎(chǔ) 187
12.7 Spider類參數(shù)傳遞 188
12.8 用XMLFeedSpider來分析XML源 191
12.9 學(xué)會使用CSVFeedSpider 197
12.10 Scrapy爬蟲多開技能 200
12.11 避免被禁止 206
12.12 小結(jié) 212
第13章 Scrapy核心架構(gòu) 214
13.1 初識Scrapy架構(gòu) 214
13.2 常用的Scrapy組件詳解 215
13.3 Scrapy工作流 217
13.4 小結(jié) 219
第14章 Scrapy中文輸出與存儲 220
14.1 Scrapy的中文輸出 220
14.2 Scrapy的中文存儲 223
14.3 輸出中文到JSON文件 225
14.4 小結(jié) 230
第15章 編寫自動爬取網(wǎng)頁的爬蟲 231
15.1 實戰(zhàn):items的編寫 231
15.2 實戰(zhàn):pipelines的編寫 233
15.3 實戰(zhàn):settings的編寫 234
15.4 自動爬蟲編寫實戰(zhàn) 234
15.5 調(diào)試與運行 239
15.6 小結(jié) 242
第16章 CrawlSpider 243
16.1 初識CrawlSpider 243
16.2 鏈接提取器 244
16.3 實戰(zhàn):CrawlSpider實例 245
16.4 小結(jié) 249
第17章 Scrapy高級應(yīng)用 250
17.1 如何在Python3中操作數(shù)據(jù)庫 250
17.2 爬取內(nèi)容寫進MySQL 254
17.3 小結(jié) 259
第四篇 項目實戰(zhàn)篇
第18章 博客類爬蟲項目 263
18.1 博客類爬蟲項目功能分析 263
18.2 博客類爬蟲項目實現(xiàn)思路 264
18.3 博客類爬蟲項目編寫實戰(zhàn) 264
18.4 調(diào)試與運行 274
18.5 小結(jié) 275
第19章 圖片類爬蟲項目 276
19.1 圖片類爬蟲項目功能分析 276
19.2 圖片類爬蟲項目實現(xiàn)思路 277
19.3 圖片類爬蟲項目編寫實戰(zhàn) 277
19.4 調(diào)試與運行 281
19.5 小結(jié) 282
第20章 模擬登錄爬蟲項目 283
20.1 模擬登錄爬蟲項目功能分析 283
20.2 模擬登錄爬蟲項目實現(xiàn)思路 283
20.3 模擬登錄爬蟲項目編寫實戰(zhàn) 284
20.4 調(diào)試與運行 292
20.5 小結(jié) 294