最近在做一些抓取其它網(wǎng)站數(shù)據(jù)的工作,,當(dāng)然別人不會(huì)乖乖免費(fèi)給你抓數(shù)據(jù)的,有各種防抓取的方法,。不過(guò)道高一尺,,魔高一丈,,通過(guò)研究都是有漏洞可以鉆的。下面的例子都是用PHP寫(xiě)的,,不會(huì)用PHP來(lái)curl的孩紙先學(xué)習(xí)一下這塊再往下看,,可以參考這篇文章:http://blog.csdn.net/linglongwunv/article/details/8020845 下面言歸正傳,先說(shuō)一種常見(jiàn)的方式,,偽造來(lái)源IP,,這也是好多刷票朋友常用的方法: 1、簡(jiǎn)單一點(diǎn)的可以在header偽造X-FORWARDED-FOR,,并偽造referer,,代碼如下:
另外還有一種情況,就是用瀏覽器可以訪問(wèn),,用curl就是不行,,發(fā)現(xiàn)對(duì)方檢查了useragent,如果沒(méi)有就認(rèn)為是抓取等非法來(lái)源,,那么我們就自己在header加上useragent,代碼如下:
啦啦啦,,完工~ |
|
來(lái)自: 黃三歲大愛(ài)人生 > 《網(wǎng)頁(yè)》