Scrapy我想很多的小伙伴多多少少都有聽(tīng)過(guò)這個(gè)框架的大名吧,!本以為他是最適合的爬蟲(chóng)用的框架,今天看到一篇居然會(huì)比Scrapy還吊,?簡(jiǎn)直不敢置信,,大家看看,希望給我點(diǎn)建議哈,! 接下來(lái)我們?cè)跒g覽器中打開(kāi) http://localhost:8000/,,就可以看到 Gerapy 的主界面了: 我們可以點(diǎn)擊項(xiàng)目頁(yè)面的右上角的創(chuàng)建按鈕,增加一個(gè)可配置化爬蟲(chóng),,接著我們便可以在此處添加提取實(shí)體,、爬取規(guī)則、抽取規(guī)則了,,例如這里的解析器,,我們可以配置解析成為哪個(gè)實(shí)體,每個(gè)字段使用怎樣的解析方式,,如 XPath 或 CSS 解析器,、直接獲取屬性、直接添加值等多重方式,,另外還可以指定處理器進(jìn)行數(shù)據(jù)清洗,,或直接指定正則表達(dá)式進(jìn)行解析等等,通過(guò)這些流程我們可以做到任何字段的解析,。 生成代碼之后,,我們只需要像上述流程一樣,把項(xiàng)目進(jìn)行部署,、啟動(dòng)就好了,,不需要我們寫(xiě)任何一行代碼,,即可完成爬蟲(chóng)的編寫(xiě)、部署,、控制,、監(jiān)測(cè)。 謝謝閱讀?。,。?/p> |
|