【原】plink格式文件的介紹及相關(guān)轉(zhuǎn)換

hucy_Bioinfo 2021-11-30

展開全文

Plink常用的文件格式有兩套：map/ped 和 bim/fam/bed,。兩組文件均沒有列名,，且每一列表示的意思是一定的,。幾種格式之間可以相互轉(zhuǎn)換,。推薦使用BED/BIM/FAM這種格式，讀取速度快,。

1. map/ped 文件

.map文件
格式說明鏈接：http://www./plink/1.9/formats#map
map格式的文件, 主要是圖譜文件信息, 主要包括染色體名稱, 所在的染色體和所在染色體的坐標(biāo),。

map文件包括：

第一列：染色體編號（1-22, X, Y or 0 if unplaced）, 未知為0；
第二列：SNP名稱（字符或數(shù)字）, 如果不重要, 可以從1編號, 注意要和bed文件SNP列一一對應(yīng),；
第三列：染色體的摩爾位置(可選項, 可以用0),；
第四列：SNP物理坐標(biāo)；

示例：

1 snp1 0 1
1 snp2 0 2
1 snp3 0 3

示例說明：這里有3個SNP, 分別名為snp1, snp3, snp3 (第二列),；這三個SNP在第一個染色體上 (第一列),；第三列為0；第四列為SNP所在染色體的坐標(biāo),。

.ped文件
格式說明鏈接：http://www./plink/1.9/formats#ped
ped格式的文件, 主要包括SNP的信息, 包括個體ID, 系譜信息, 表型和SNP的分型信息,。

.ped 文件主要有 6 列，后面都是基因型：

第一列: Family ID # 如果沒有, 可以用個體ID代替,；
第二列: Individual ID # 個體ID編號,；
第三列: Paternal ID # 父本編號；
第四列: Maternal ID # 母本編號,；
第五列: Sex (1=male; 2=female; other=unknown) # 性別, 如果未知, 用0表示,；
第六列: Phenotype (0=unknown; 1=unaffected; 2=affected) # 表型數(shù)據(jù), 如果未知, 用0表示；
第七列以后: 為SNP分型數(shù)據(jù), 可以是AT CG或11 12, 或者A T C G或1 1 2 2,；

示例：

1 1 0 0 1 0 G G 2 2 C C
1 2 0 0 2 0 A A 0 0 A C
1 3 1 2 1 2 0 0 1 2 A C
2 1 0 0 1 0 A A 2 2 0 0
2 2 0 0 2 2 A A 2 2 0 0
2 3 1 2 1 2 A A 2 2 A A

示例說明：數(shù)據(jù)包括兩個家系 (第一列),；每個家系有三個個體 (第二列)；第三列父本編號,；第四列母本編號,；第五列性別；第六列表型值,；第七,、八列為第一個基因型；第九,、十列為第二個基因型,；第十一、十二列為第三個基因型,。

2. bim/fam/bed文件

格式說明鏈接：http://www./plink/1.9/formats 或 http://www./plink/2.0/formats

.bim文件
bim文件存儲每個遺傳變異（通常是SNP）的相關(guān)信息,，每一行代表一個遺傳變異，共6列：
第一列：染色體編號（常用整數(shù)標(biāo)記,，如22表示第22條染色體,，性染色體和線粒體染色體用’X’/'Y’/'XY’/'MT’表示，而’0’ 代表染色體信息缺失）,；
第二列：變異標(biāo)識符,，這個就相當(dāng)與每一個遺傳變異的編號,，常見的SNP可以采用以“rs”開頭的編號；
第三列：每個遺傳變異在基因組上的位置,，用摩爾根或者厘摩爾根表示,；
第四列：堿基對的坐標(biāo)；
第五列：等位基因1（A1）,，通常是次要等位基因（minor allele）,；
第六列：等位基因2（A2），通常是主要等位基因（major allele）,。

.fam文件
fam存儲的是樣本家系等信息,，共6列：
第一列：家系編號('FID’)；
第二列：個體編號('IID’; 不能是 '0’),；
第三列：父系編號 ('0’ 表示父系信息缺失),；
第四列：母系編號('0’ 表示母系信息缺失)；
第五列：性別編號('1’ = 男, '2’ = 女, '0’ = 性別未知),；
第六列：表型值 ('1’ = 對照, '2’ = 病例, '-9’/'0’/表示表型缺失),。

.bed文件
bed存儲基因型信息，是plink中的二元等位基因表,。
解釋詳見 http://www./plink/1.9/formats#bed
注意：此處的bed文件與 UCSC Genome Browser’s BED format 中的bed文件格式是完全不同的東西,。

3. plink格式文件的相互轉(zhuǎn)換

參考：https://zzz.bwh./plink/dataman.shtml

#1. bed/bim/fam 轉(zhuǎn)為 ped/map
#input files: test.bed; test.bim; test.fam  #output files: test1.ped; test1.map
plink --file test --recode --out test1 

#2. ped/map轉(zhuǎn)為二進(jìn)制格式 bed/bim/fam
#input files: test.ped; test.map  #output files: test2.bed; test2.bim; test2.fam
plink --file test --make-bed --out test2

#3.SNP編碼成加性(字母 012) 
# http://zzz.bwh./plink/dataman.shtml#recode
# 注：默認(rèn)編碼方式：兩個等位均為major allele，則編碼為0,；雜合等位編碼為1,；兩個minor等位編碼為2。
#input files: test.ped; test.map  #output files: test.raw
plink --file test --recodeA --out test 
# ped文件中, SNP的分型是1 1 2 2 或 11 22  或 AA TT 或 AA 22,，均采用該命令進(jìn)行轉(zhuǎn)換，且不影響結(jié)果,。

#4.vcf轉(zhuǎn)ped/map
#input files: test.vcf;  #output files: test.ped; test.map
plink --vcf test.vcf --recode --out test   # 當(dāng)出現(xiàn)錯誤,，無法讀取chrom時，加 --allow-extra-chr,，可以強制程序接受編號
vcftools --vcf test.vcf --plink --out test

#5.bed/bim/fam轉(zhuǎn)vcf
#input files: test.bed; test.bim; test.fam  #output files: test.vcf
plink --bfile test --export vcf --out test
plink --bfile test --recode vcf-iid --out test  

plink --bfile filename --a1-allele file.bim 6 --make-bed --out newfilename # a1 a2在bim文件中替換位置,。

4. 利用plink進(jìn)行數(shù)據(jù)預(yù)處理（修剪SNP集）

(1) 刪除基因型缺失率大于5%、次要等位基因頻率小于0.01的SNPs

plink --file hapmap --geno 0.05 --maf 0.01 --out hapmap --make-bed

(2) 基于連鎖不平衡的SNP修剪（窗寬500,、刪除LD大于0.1的SNP對中的一個,、每次將窗口向前移動10個SNP）

plink --file hapmap --indep-pairwise 500 10 0.1 
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmap

(3) 基于隨機采樣保留部分SNPs（例如只隨機保留20%的SNP）

plink --file hapmap --thin  0.2 --out hapmap --make-bed

(4) 采用上述所有步驟并輸出bed、bim,、fam文件

plink --file hapmap --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmap

plink --bfile cluster_remove --recode --out data --noweb #由bed文件轉(zhuǎn)為ped,、map文件
plink --file data --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file data --extract plink.prune.in --make-bed --out pruneddata

(5) 將23andme原始數(shù)據(jù)文件轉(zhuǎn)化為.ped文件

plink --23file File.txt --make-bed --out NewFile

(6) 將多個數(shù)據(jù)合并
其中fileset3.txt中包含要合并的文件名。

plink --file genom0 --merge-list filesets3.txt --make-bed --out combdata

(7) 篩選vcf文件中的SNPs
在file.txt中,， snp名字作為一列,，無header，輸出格式為vcf

vcftools --gzvcf test.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp

5. 總結(jié)

參考閱讀：

plink格式的map文件和ped文件，https://blog.csdn.net/weixin_42948291/article/details/103333306

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： hucy_Bioinfo > 《軟件介紹》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

hucy_Bioinfo

關(guān)注對話

TA的最新館藏

EndNote技巧 | Bibliography的Templates修改
【文獻(xiàn)分享】睡眠時長的線性與非線性孟德爾隨機化分析
【文獻(xiàn)分享】線性與非線性孟德爾隨機化
plink格式文件的介紹及相關(guān)轉(zhuǎn)換
分位數(shù)回歸（quantile regression）R實現(xiàn)
【軟件介紹】IGV軟件的安裝和基本介紹

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

【原】plink格式文件的介紹及相關(guān)轉(zhuǎn)換