Python常見的數(shù)據(jù)類型主要包括:不可變數(shù)據(jù)類型和可變數(shù)據(jù)類型,其中前者有:Number(數(shù)字類型),,String(字符串類型),,Tuple(元組);后者有:List(列表類型),,Dict(字典類型),,Set(集合類型)。 絕大多數(shù)爬蟲是按“發(fā)送請求——獲得頁面——解析頁面——抽取并儲存內(nèi)容”的流程運行,。 Python中和爬蟲有關(guān)的包有以下數(shù)量:
前輩們指導(dǎo)從requests+Xpath 開始學(xué)習(xí),,requests 的主要作用是連接網(wǎng)站,返回網(wǎng)頁,,Xpath 的主要作用是解析網(wǎng)頁,,便于抽取數(shù)據(jù)。 scrapy是一個功能非常強大的爬蟲框架,,它不僅能便捷地構(gòu)建request,,還有強大的 selector 能夠方便地解析response。 如果爬到的數(shù)據(jù)量較小時,,可以用文檔的形式來存儲這些小量數(shù)據(jù),,如果爬到的數(shù)據(jù)量比較大,就不能采用上面的方法了。 MongoDB 可以方便你去存儲一些非結(jié)構(gòu)化的數(shù)據(jù),。 分布式爬蟲就是用多線程的原理讓多個爬蟲同時運行,,但需要掌握Scrapy+MongoDB + Redis 這三種工具。
用 lxml+Xpath代替 BeautifulSoup 來進行網(wǎng)頁解析。 當使用者不習(xí)慣使用IDLE,,則可用熟悉的無格式文本編輯器編寫Python程序,,如果是:
在編輯 Python 的文件時,,需要注意程序中單詞的大小寫,Python 程序中對于大小寫是嚴格區(qū)分的,。 Python程序中沒有要求語句使用分號結(jié)尾,,當然使用分號也行,就是并沒有實質(zhì)的作用(除非同一行有更多的代碼),,還有就是這種寫代碼的方法Python是不推薦的,。 到現(xiàn)在這個階段,Python已經(jīng)經(jīng)歷多個版本了,,并且每次更新,,代碼的呈現(xiàn)方式會發(fā)生較大變化,看看下面這個最簡單的Python程序:
print 'Hello World'
現(xiàn)階段,,一般都在使用Python第三個版本了,。 可以看看運行的效果: 注意:Windows 系統(tǒng),Mac OS X 或 Linux 系統(tǒng)都區(qū)分大小寫,。 可以看看大小寫的區(qū)別:
|
|
來自: 生物_醫(yī)藥_科研 > 《待分類》