久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

教你nodejs爬蟲制作知乎專欄RSS抓取程序

 python_lover 2021-10-20

現(xiàn)在這個社會是信息爆炸的社會,,各個網(wǎng)站、app上鋪天蓋地的都是各種新聞和信息,。 為了獲取信息,,我們每天都要進行各種麻煩的操作,,打開各種網(wǎng)站或者手機app,操作顯得低效,,后來發(fā)現(xiàn)了一個神器,那就是RSS,。

什么是RSS

RSS中文名是簡易信息聚合,,就是讓網(wǎng)站一個按照一定周期更新網(wǎng)站的文章概要內(nèi)容(有些是全文)到一個xml中,。RSS訂閱工具一定時間抓取這個RSS訂閱源生成數(shù)據(jù)供訂閱者讀取網(wǎng)站內(nèi)容。 

有了RSS,,你只要去訂閱工具上就可以瀏覽你自己訂閱的新的更新內(nèi)容,,非常簡單高效。這里推薦一個RSS訂閱神器inoreader,,支持中文,。這個我認為是目前最好的RSS訂閱器。 知乎專欄是一個知乎開給個人寫的博客,,有些專欄上面具有有價值的信息,,但是很遺憾知乎專欄不提供RSS訂閱,當(dāng)然作為開發(fā)者來說,,我們可以自己動手做一個知乎專欄RSS抓取程序,。

 

制作爬蟲

很多網(wǎng)站提供了RSS,,但是更多網(wǎng)站其實沒有提供RSS訂閱源,。我們可以使用爬蟲抓取網(wǎng)站更新內(nèi)容制作個人的RSS訂閱源。我作為一個前端er可以使用nodejs來進行RSS的制作,。

什么是nodejs

Node.js是一個基于Chrome JavaScript運行時建立的平臺,, 用于方便地搭建響應(yīng)速度快、易于擴展的網(wǎng)絡(luò)應(yīng)用,。Node.js 使用事件驅(qū)動,, 非阻塞I/O 模型而得以輕量和高效,,非常適合在分布式設(shè)備上運行數(shù)據(jù)密集型的實時應(yīng)用。

簡單的說 Node.js 就是運行在服務(wù)端的 JavaScript,。使用nodejs的可以讓你一個只會用JavaScript也能寫后端服務(wù)代碼,。當(dāng)然也能用它進行爬蟲抓取的工作,。

先安裝爬蟲所需依賴

進行爬取工作的話先要安裝所要用到的依賴,。 superagent是最常用的一個依賴庫,利用它可以輕松發(fā)送各種請求,。 cheerio就是一個nodejs版本的jquery,利用它可以獲取網(wǎng)頁中的各種dom結(jié)構(gòu),。 data2xml就是一個json轉(zhuǎn)化成xml的一個庫。 其他還有node-schedulefs就是進行定時操作和文件操作,。

新建一個文件夾rssmaker,并且執(zhí)行npm init創(chuàng)建package.json,。

 

用npm install node_modules_name --save來進行安裝各種依賴。

分析知乎專欄結(jié)構(gòu)獲取要爬取的入口

我這次舉例爬取一個專欄前端學(xué)習(xí)指南,。像這種適配手機端的網(wǎng)頁,一般都有采用發(fā)送API請求來獲得數(shù)據(jù)進行前端渲染頁面,,我們可以用chromenetwork的查看可疑的請求,。打開chrome的開發(fā)者工具,。我們很快就發(fā)現(xiàn)了一個目標。一個可疑請求https://zhuanlan.zhihu.com/api/columns/study-fe/posts?limit=20

 

 

4

我們得到了一個json,我們現(xiàn)在使用一個json的查看工具chrome的插件JSON Editor可視化這個json數(shù)據(jù)方便我們進行分析,。

 

5

我們可視化后數(shù)據(jù)如下:

 

6

前面我們發(fā)現(xiàn)的請求發(fā)送里面有一個參數(shù)是limit,它的值是20,從上圖我們知道了我們得到了20組數(shù)據(jù),,這個參數(shù)其實就是限制獲取的數(shù)據(jù)條目數(shù)。我們現(xiàn)在分析20組里面的一條數(shù)據(jù),。

 

{    "isTitleImageFullScreen": false,    "rating": "none",    "sourceUrl": "",    "publishedTime": "2016-12-28T15:01:44+08:00",    "links": {      "comments": "/api/posts/24606606/comments"
    },    "author": {      "profileUrl": "https://www.zhihu.com/people/jirengu-ruo-yu",      "bio": "饑人谷的挑山工    jirengu.com",      "hash": "3dd61d987210ce6b0ba24746803e04bb",      "uid": 33284922802176,      "isOrg": false,      "description": "饑人谷的挑山工    jirengu.com     ",      "isOrgWhiteList": false,      "slug": "jirengu-ruo-yu",      "avatar": {        "id": "31a3446681c9040f3643472db505a6ef",        "template": "https://pic4./{id}_{size}.jpg"
      },      "name": "若愚"
    },    "url": "/p/24606606",    "title": "前端筆試面試題庫",    "titleImage": "",    "summary": "",    "content": "<h2>做了什么?</h2><p>我們在建了 GitHub 前端筆試面試題庫 <a href=\"https://github.com/jirengu/frontend-interview/issues\" data-editable=\"true\" data-title=\"前端筆試面試題庫\" class=\"\">前端筆試面試題庫</a>,, 歡迎走訪</p><br><br><h2>為什么建前端筆試面試題庫?</h2><p><a href=\"https://zhuanlan.zhihu.com/study-fe\" data-editable=\"true\" data-title=\"前端學(xué)習(xí)指南專欄\" class=\"\">前端學(xué)習(xí)指南專欄</a> 專欄創(chuàng)建3個月有很多前端愛好者特別是入門者關(guān)注,,很多小伙伴一直期待我們能做一份筆試面試題集錦分享給大家,,我和方方也一直想把這個事情做好,。但兩個人的力量太微弱,,于是想到在 github 上建立公共項目,,匯集更多前端愛好者的力量一起收集前端常見筆試面試題,,作為送給前端入門的小伙伴,、需要找工作的小伙伴一份新年禮物

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多