Dedecms采集功能的使用方法 — 不含分頁的普通文章(三)3.1采集指定節(jié)點(diǎn)單擊“保存并開始采集“后,將會(huì)進(jìn)入”采集指定節(jié)點(diǎn)“界面,,如(圖34)所示,, 圖34-采集指定節(jié)點(diǎn)
每頁采集:設(shè)置每頁所需采集的條數(shù),,并可根據(jù)網(wǎng)站是否有防刷新功能,設(shè)置采集間隔時(shí)間。
特殊選項(xiàng):設(shè)置是否檢測(cè)重復(fù)圖片,,默認(rèn)為“檢測(cè)”,。
附加選項(xiàng):此選項(xiàng)一共有3種采集模式可供選擇:第一種為“監(jiān)控采集模式(檢測(cè)當(dāng)前或所有節(jié)點(diǎn)是否有新內(nèi)容)”,選取后,,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中更新的內(nèi)容,;第二種為“重新下載全部?jī)?nèi)容”,選取后,,系統(tǒng)會(huì)采集指定節(jié)點(diǎn)中的全部?jī)?nèi)容,;第三種為“下載種子網(wǎng)站的未下載內(nèi)容”,選取后,,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中未下載過的內(nèi)容,,包括以前沒下載的和更新的內(nèi)容。
設(shè)置完成并確定無誤后,,可單擊“開始采集網(wǎng)頁”或者“查看種子網(wǎng)址”,。此時(shí),如果單擊“查看種子網(wǎng)址”會(huì)看到列表是空的,,這是因?yàn)樾陆⒌牟杉?jié)點(diǎn)從未采集過,,如(圖35)所示, 圖35-查看節(jié)點(diǎn)的種子網(wǎng)址
單擊“開始采集網(wǎng)頁”后,,系統(tǒng)便會(huì)開始采集節(jié)點(diǎn)中設(shè)置的網(wǎng)址,,并出現(xiàn)相關(guān)提示,如(圖36)所示,, 圖36-采集進(jìn)程中提示信息
采集結(jié)束后,,再次單擊“查看種子網(wǎng)址”或者單擊頁面右上角的“查看已下載”,便可看到已采集到的網(wǎng)址信息,,如(圖37)所示,, 圖37-查看節(jié)點(diǎn)的種子網(wǎng)址
成功采集以后,可以根據(jù)實(shí)際需要選擇頁面右上角的單擊“采集節(jié)點(diǎn)管理”或者“導(dǎo)出數(shù)據(jù)”,。單擊“導(dǎo)出數(shù)據(jù)“后,,便可進(jìn)入” 采集管理> 采集內(nèi)容導(dǎo)出“界面,如(圖38)所示,, 圖38-采集內(nèi)容導(dǎo)出
“默認(rèn)導(dǎo)出欄目“:設(shè)置要把采集到的內(nèi)容導(dǎo)入到的欄目
“批量采集選項(xiàng)”:如果在采集規(guī)則中已指定欄目ID,,則可使用此功能,若指定的欄目ID為0,,系統(tǒng)會(huì)把采集內(nèi)容導(dǎo)入到“默認(rèn)導(dǎo)出欄目”所選擇的欄目中,。
“發(fā)布選項(xiàng)“:有發(fā)布成“普通文檔”和“保存為草稿”可供選擇。
“每批導(dǎo)入“:設(shè)置每批導(dǎo)入的條數(shù),,此數(shù)不宜過大,。
“附帶選項(xiàng)“:此處為多選,。如果不希望采集到重復(fù)的文章標(biāo)題,可選中“排除重復(fù)標(biāo)題”,;如果希望被采集到的內(nèi)容直接生成HTML的話,,可選中“完成后自動(dòng)生成導(dǎo)入內(nèi)容HTML”;如果希望系統(tǒng)在采集列表頁時(shí)自動(dòng)識(shí)別標(biāo)題名,,可選中“使用列表索引的標(biāo)題”,,一般不建議勾選。
“隨機(jī)推薦”:填入一個(gè)數(shù)字,,代表文檔篇數(shù),。在所填入的文檔篇數(shù)內(nèi)隨機(jī)出現(xiàn)一篇推薦文檔,若填入“0”,,則表示為不推薦,。
設(shè)置完成后,可單擊“確定”,,就可以把下載的導(dǎo)入到所選的欄目中了,,如(圖39)所示, 圖39-設(shè)置完成后的采集內(nèi)容導(dǎo)出頁面
同時(shí),,系統(tǒng)將會(huì)有導(dǎo)出進(jìn)程提示,,如(圖40)所示, 圖40-采集內(nèi)容導(dǎo)出中的提示信息
導(dǎo)出采集內(nèi)容提示“完成所有欄目列表更新”后,,單擊“瀏覽欄目”,便可進(jìn)入網(wǎng)站的相關(guān)頁面查看到采集到的文章列表及其具體內(nèi)容,。也可在后臺(tái)管理界面的主菜單中單擊“核心”,,然后單擊“普通文章”,進(jìn)入“文檔列表”頁面,,查看所采集到的文章列表,,如(圖41)所示, 圖41-文檔列表
到此為止,,已成功采集到了目標(biāo)網(wǎng)站的文章內(nèi)容,。
總結(jié),采集“不含分頁的普通文章”還是相對(duì)比較簡(jiǎn)單的,,由于本篇文章是一篇基礎(chǔ)教程,,因此并沒有過多的涉及到“過濾規(guī)則”。對(duì)于“含有分頁的普通文章”的采集方法及過濾規(guī)則的使用,,將會(huì)在下一篇文章中介紹,。
附上本文的采集規(guī)則: {dede:listrule sourcetype=”batch” rssurl=”http://” regxurl=”http://www./knowledge/web-based/dreamweaver/list_47_(*).html” {/dede:listconfig} {dede:itemconfig} {/dede:itemconfig} No related posts. |
|