數(shù)據(jù)是量化交易的基礎(chǔ),,通過網(wǎng)絡(luò)上采集必要的數(shù)據(jù),是一件很有意思的事情,,通過“爬蟲”技術(shù)創(chuàng)建數(shù)據(jù)自動采集接口,,從而獲取更多決策因子 。我們要做的并不是通過“算法”去預(yù)測未來股票的價格,,而是通過計算機(jī)技術(shù)更快,、更高效地發(fā)現(xiàn)投資價值(時機(jī))。 警告 1.爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施,,非法獲取相關(guān)信息,,情節(jié)嚴(yán)重的,有可能構(gòu)成“非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪”,。 2.爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運(yùn)營,,后果嚴(yán)重的,觸犯刑法,,構(gòu)成“破壞計算機(jī)信息系統(tǒng)罪” 3.爬蟲采集的信息屬于公民個人信息的,,有可能構(gòu)成非法獲取公民個人信息的違法行為,情節(jié)嚴(yán)重的,,有可能構(gòu)成“侵犯公民個人信息罪”,。 應(yīng)遵守的基本規(guī)則是 1、 遵守 Robots 協(xié)議 Robots 協(xié)議也叫 robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的 ASCII 編碼的文本文件,,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的,。 2,、不能造成對方服務(wù)器癱瘓 2019年05月28日國家網(wǎng)信辦發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見稿)》中,擬通過行政法規(guī)的形式,,對爬蟲的使用進(jìn)行限制,。 3、不能非法獲利 我們絕大多數(shù)公司和個人使用的爬蟲都是沒有問題的,,不必人人自危,,只要把握住不要爬取個人信息,不要利用爬蟲非法獲利,,不要爬取網(wǎng)站的付費(fèi)內(nèi)容,。 準(zhǔn)備爬蟲工具 1.Chrome(瀏覽器) Chrome屬于爬蟲的基礎(chǔ)工具,一般我們用它做初始的爬取分析,,頁面邏輯跳轉(zhuǎn),、簡單的js調(diào)試、網(wǎng)絡(luò)請求的步驟等,。 2.XPath Helper 在提取網(wǎng)頁數(shù)據(jù)時,,我們一般需要使用xpath語法進(jìn)行頁面數(shù)據(jù)信息提取,一般地,,但我們只能寫完語法,,發(fā)送請求給對方網(wǎng)頁,然后打印出來,,才知道我們提取的數(shù)據(jù)是否正確,,這樣一方面會發(fā)起很多不必要的請求,,另外一方面,也浪費(fèi)了我們的時間,。這個就可以用到XPath Helper了,,通過Chrome安裝插件后,我們只需要點(diǎn)擊它在對應(yīng)的xpath中寫入語法,,然后便可以很直觀地在右邊看到我們的結(jié)果,。 3.JSONView 有時候提取的數(shù)據(jù)是Json格式的,因為它簡單易用,,越來越多的網(wǎng)站傾向于用Json格式進(jìn)行數(shù)據(jù)傳輸,。這個時候安裝這個插件后,可以很方便的來查看Json數(shù)據(jù),。 4.JSON Editor Online JSONView是直接在網(wǎng)頁端返回的數(shù)據(jù)結(jié)果是Json,,但多數(shù)時候我們請求的結(jié)果,都是前端渲染后的HTML網(wǎng)頁數(shù)據(jù),,我們發(fā)起請求后得到的json數(shù)據(jù),,在終端(即terminal)中無法很好的展現(xiàn)怎么辦?借助JSON Editor Online就可以幫你很好的格式化數(shù)據(jù)啦,,一秒格式化,,并且實現(xiàn)了貼心得折疊Json數(shù)據(jù)功能。 |
|