分頁就是目標(biāo)網(wǎng)站上一個(gè)文章分為好幾頁,需要設(shè)置規(guī)則將其全部采到,。采集要點(diǎn):
具體操作流程:先測試獲得所有分頁,,再對(duì)每個(gè)分頁里的內(nèi)容進(jìn)行獲取,。 下邊以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/1226877.html為例來說明一下具體的使用方法。 第一點(diǎn):采集規(guī)則要對(duì)每個(gè)分頁都適用看一下,,這里分頁有兩個(gè),,前一頁[1] [2] 下一頁 ,,要做的是要使所寫的規(guī)則在兩個(gè)頁面中都可以正常采到內(nèi)容,寫個(gè)規(guī)則,,測試第一頁,,成功獲取內(nèi)容,然后改寫網(wǎng)址為第二個(gè),,測試,,同樣可以獲得要的內(nèi)容,那么,,說明這一步已經(jīng)成功了,。 進(jìn)入下一步。規(guī)則是這樣寫的,,兩個(gè)頁面都通過,。 現(xiàn)在看分頁這里的設(shè)置,全部列出是在第一頁或每一頁上都有全部的發(fā)布文章的網(wǎng)址,,上下頁是沒有將全部的列出,。這個(gè)規(guī)則里選全部列出。因此,,只要在第一頁里找好包含所有網(wǎng)址的區(qū)域就可以了,。 看一下,上邊是有分頁網(wǎng)址的區(qū)域,,選個(gè)開頭結(jié)尾,,就可以正常采到分頁了。 火車的新版是可以直觀的看到分頁網(wǎng)址的,,這對(duì)做分頁規(guī)則很有用,。 這樣全部采集到了。 注意:分頁設(shè)置下邊有個(gè)分頁內(nèi)容合并連接代碼,,可以設(shè)置成你想要的東西,,比如CMS的手動(dòng)分頁標(biāo)簽。 下邊來講一個(gè)上下頁的分頁處理方法及如何使用手動(dòng)鏈接地地規(guī)則. 以 http://www./doc/hard/86643.htm 這個(gè)頁面為例.來找一下分頁的開頭和結(jié)尾,這個(gè)分頁很明顯. 開始:<div id="divSubPageNav" class="doctext08"> 結(jié)束:</div>. 使用上一頁,下一頁的形式就可以采到所有地址.不過會(huì)發(fā)現(xiàn)有一個(gè)地址是不需要的,看下邊: 此頁面包含多個(gè)分頁: 1:http://www./doc/hard/86643.htm 2:http://www./doc/hard/86643_2.htm 3:http://www./doc/hard/86643_3.htm 4:http://www./doc/hard/86643_4.htm 5:http://www./doc/hard/86643_5.htm 6:http://www./doc/hard/86643_6.htm 7:http://www./doc/hard/86643_7.htm 8:http://www./doc/hard/86643_8.htm 9:http://www./doc/hard/86643_9.htm 10:http://www./doc/hard/86643_10.htm 11:http://www./doc/hard/86643_11.htm 12:http://www./doc/hard/86643_12.htm 13:http://www./doc/hard/86643_13.htm 14:http://www./doc/hard/86643_14.htm 15:http://www./doc/hard/86643_15.htm 16:http://www./doc/hard/86643_16.htm 17:http://www./doc/hard/86643_17.htm 18:http://www./doc/hard/86643_18.htm 19:http://product./Product_default_1041.htm 有分頁匹配的標(biāo)簽,,比如內(nèi)容注意選中標(biāo)簽編輯框中的[該標(biāo)簽在分頁中匹配] 最后一個(gè)不是,可以看到,前邊的網(wǎng)址和后邊的是不一樣的.現(xiàn)在是使用手動(dòng)填寫鏈接地址規(guī)則的時(shí)候了.在分頁鏈接地址樣式里邊,寫 http://www./[參數(shù)].htm 分頁網(wǎng)址里寫http://www./[參數(shù)1].htm,現(xiàn)在看一下,正確了. 技巧:在使用自定義地址樣式時(shí),,程序會(huì)自動(dòng)補(bǔ)全網(wǎng)址,請(qǐng)看這個(gè)規(guī)則 |
|