【原】R如何提取,，合并pdf文件

生信交流平臺 2021-12-29

展開全文

多年以前,，小編還在讀博士的時候，實驗室評選重點實驗室,。為了迎接教育部的檢查,，需要把實驗室近10年發(fā)表的文章的首頁都打印出來，因為首頁上有作者和單位,。你要知道小編的實驗室是做生物信息學的,，加上實驗室人丁興旺，因此相當?shù)母弋a(chǎn),。我被分到了其中一年發(fā)表的文章,，有三四十篇。

其實老老實實一篇一篇打開,，打印第一頁,，估計十幾二十分鐘也能搞定。但是小編是一個“很懶”的人,，這種簡單的重復勞動,，不應該讓機器來做嗎？于是吭哧吭哧在那里寫perl代碼來實現(xiàn),?；斯烙嬕粌蓚€小時，總算是做出來了,。其他的同學們早就已經(jīng)干完了,。不過還是挺開心的，雖然這次花的時間比較久,，后面就可以一勞永逸,，事半功倍了。

當時的perl代碼已經(jīng)找不到了,，但是思路還在,。就是先提取每個pdf文件的首頁，然后合并成一個pdf文件,，送到打印機里面單頁打印就可以了,。今天就用R來實現(xiàn)一下

install.packages("pdftools")library(pdftools)#創(chuàng)建一個文件夾來存放每篇文章的首頁dir.create("cover")#假設所有的文章都存在ATAC這個文件夾中#獲取ATAC文件夾中的所有pdf文件pdfs<-list.files("ATAC",full.names = T)for(i in seq_along(pdfs)){ #pages控制提取的頁面，2:5就是從第二頁到第五頁 pdf_subset(pdfs[i], pages = 1:1, output = paste0("cover/",i,".pdf"))}

#獲取cover文件夾中所有的pdf文件covers<-list.files("cover",full.names = T)#合并成一個pdf文件pdf_combine(covers, output = "joined_covers.pdf")

合并以前