爬蟲采集東方財富股票人氣榜數(shù)據(jù)（上）

禁忌石 2022-03-20

展開全文

數(shù)據(jù)是量化交易的基礎(chǔ),，通過網(wǎng)絡(luò)上采集必要的數(shù)據(jù)，是一件很有意思的事情,，通過“爬蟲”技術(shù)創(chuàng)建數(shù)據(jù)自動采集接口,，從而獲取更多決策因子。我們要做的并不是通過“算法”去預(yù)測未來股票的價格,，而是通過計算機(jī)技術(shù)更快,、更高效地發(fā)現(xiàn)投資價值（時機(jī)）。

警告

1.爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施,，非法獲取相關(guān)信息,，情節(jié)嚴(yán)重的，有可能構(gòu)成“非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪”,。

2.爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運(yùn)營,，后果嚴(yán)重的，觸犯刑法,，構(gòu)成“破壞計算機(jī)信息系統(tǒng)罪”

3.爬蟲采集的信息屬于公民個人信息的,，有可能構(gòu)成非法獲取公民個人信息的違法行為，情節(jié)嚴(yán)重的,，有可能構(gòu)成“侵犯公民個人信息罪”,。

應(yīng)遵守的基本規(guī)則是

1、遵守 Robots 協(xié)議

Robots 協(xié)議也叫 robots.txt（統(tǒng)一小寫）是一種存放于網(wǎng)站根目錄下的 ASCII 編碼的文本文件,，它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器（又稱網(wǎng)絡(luò)蜘蛛）,，此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的，哪些是可以被漫游器獲取的,。

2,、不能造成對方服務(wù)器癱瘓

2019年05月28日國家網(wǎng)信辦發(fā)布的《數(shù)據(jù)安全管理辦法（征求意見稿）》中，擬通過行政法規(guī)的形式,，對爬蟲的使用進(jìn)行限制,。

3、不能非法獲利

我們絕大多數(shù)公司和個人使用的爬蟲都是沒有問題的,，不必人人自危,，只要把握住不要爬取個人信息，不要利用爬蟲非法獲利,，不要爬取網(wǎng)站的付費(fèi)內(nèi)容,。

準(zhǔn)備爬蟲工具

1.Chrome（瀏覽器）

Chrome屬于爬蟲的基礎(chǔ)工具，一般我們用它做初始的爬取分析,，頁面邏輯跳轉(zhuǎn),、簡單的js調(diào)試、網(wǎng)絡(luò)請求的步驟等,。

2.XPath Helper

在提取網(wǎng)頁數(shù)據(jù)時,，我們一般需要使用xpath語法進(jìn)行頁面數(shù)據(jù)信息提取，一般地,，但我們只能寫完語法,，發(fā)送請求給對方網(wǎng)頁，然后打印出來,，才知道我們提取的數(shù)據(jù)是否正確,，這樣一方面會發(fā)起很多不必要的請求,，另外一方面，也浪費(fèi)了我們的時間,。這個就可以用到XPath Helper了,，通過Chrome安裝插件后，我們只需要點(diǎn)擊它在對應(yīng)的xpath中寫入語法,，然后便可以很直觀地在右邊看到我們的結(jié)果,。

3.JSONView

有時候提取的數(shù)據(jù)是Json格式的，因為它簡單易用,，越來越多的網(wǎng)站傾向于用Json格式進(jìn)行數(shù)據(jù)傳輸,。這個時候安裝這個插件后，可以很方便的來查看Json數(shù)據(jù),。

4.JSON Editor Online

JSONView是直接在網(wǎng)頁端返回的數(shù)據(jù)結(jié)果是Json,，但多數(shù)時候我們請求的結(jié)果，都是前端渲染后的HTML網(wǎng)頁數(shù)據(jù),，我們發(fā)起請求后得到的json數(shù)據(jù),，在終端(即terminal)中無法很好的展現(xiàn)怎么辦？借助JSON Editor Online就可以幫你很好的格式化數(shù)據(jù)啦,，一秒格式化,，并且實現(xiàn)了貼心得折疊Json數(shù)據(jù)功能。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：禁忌石 > 《python》

舉報/認(rèn)領(lǐng)