久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

第一個最基礎(chǔ)的Python程序

 生物_醫(yī)藥_科研 2019-04-15

Python常見的數(shù)據(jù)類型主要包括:不可變數(shù)據(jù)類型和可變數(shù)據(jù)類型,其中前者有:Number(數(shù)字類型),,String(字符串類型),,Tuple(元組);后者有:List(列表類型),,Dict(字典類型),,Set(集合類型)。


絕大多數(shù)爬蟲是按“發(fā)送請求——獲得頁面——解析頁面——抽取并儲存內(nèi)容”的流程運行,。


Python中和爬蟲有關(guān)的包有以下數(shù)量:

  • urllib

  • requests

  • bs4

  • scrapy

  • pyspider等等

前輩們指導(dǎo)從requests+Xpath 開始學(xué)習(xí),,requests 的主要作用是連接網(wǎng)站,返回網(wǎng)頁,,Xpath 的主要作用是解析網(wǎng)頁,,便于抽取數(shù)據(jù)。


scrapy是一個功能非常強大的爬蟲框架,,它不僅能便捷地構(gòu)建request,,還有強大的 selector 能夠方便地解析response。

如果爬到的數(shù)據(jù)量較小時,,可以用文檔的形式來存儲這些小量數(shù)據(jù),,如果爬到的數(shù)據(jù)量比較大,就不能采用上面的方法了。


MongoDB 可以方便你去存儲一些非結(jié)構(gòu)化的數(shù)據(jù),。


分布式爬蟲就是用多線程的原理讓多個爬蟲同時運行,,但需要掌握Scrapy+MongoDB + Redis 這三種工具。


  • Scrapy——用于做基本的頁面爬取

  • MongoDB——用于存儲爬取的數(shù)據(jù)

  • Redis ——則用來存儲要爬取的網(wǎng)頁隊列,,也就是任務(wù)隊列,。


lxml+Xpath代替 BeautifulSoup進行網(wǎng)頁解析


當使用者不習(xí)慣使用IDLE,,則可用熟悉的無格式文本編輯器編寫Python程序,,如果是:

  • Windows操作系統(tǒng),則可使用EditPlus,、Notepad++,、UltraEdit等程序;

  • Linux系統(tǒng)上使用vim,、gedit等工具,;

  • MacOSX 系統(tǒng)上可使用 TextEdit、Sublime Text 等工具,。


在編輯 Python 的文件時,,需要注意程序中單詞的大小寫Python 程序中對于大小寫是嚴格區(qū)分的,。


Python程序中沒有要求語句使用分號結(jié)尾,,當然使用分號也行,就是并沒有實質(zhì)的作用(除非同一行有更多的代碼),,還有就是這種寫代碼的方法Python是不推薦的,。


到現(xiàn)在這個階段,Python已經(jīng)經(jīng)歷多個版本了,,并且每次更新,,代碼的呈現(xiàn)方式會發(fā)生較大變化,看看下面這個最簡單的Python程序

  • Python2中顯示為

print 'Hello World'

  • Python3中顯示為

print ('Hello World')

現(xiàn)階段,,一般都在使用Python第三個版本了,。

可以看看運行的效果:

注意:Windows 系統(tǒng),Mac OS X 或 Linux 系統(tǒng)都區(qū)分大小寫,。

可以看看大小寫的區(qū)別:


聲明:本文基于參考文摘進行編輯

微信ID: lxdlxd19900511,,同樣有相互交流的主群,加微信可以入群哦??!同時,QQ主群號碼為:679544379.

百度搜索生信菜鳥驛站也可以關(guān)注哦

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多