波多野结衣AV高清一区二区三区|日韩精品久久久久网站|99re免费视频国产在线播放|国产手机在线αⅴ片无码观看|

服務(wù)熱線02152235399
當(dāng)前位置:博客 > 生物信息

全基因組甲基化軟件bismark安裝及使用說明

時間:2018-10-19    |    閱讀量:21464


在WGBS測序中,我們選用bismark(http://www.bioinformatics.bbsrc.ac.uk/projects/bismark/)軟件對fq文件進(jìn)行mapping,該軟件基于bowtie或者bowtie2,BS-seq reads C→T G→A分別轉(zhuǎn)化。再分別mappingBS轉(zhuǎn)化過的基因組。得到的四個alignment結(jié)果來判斷最合適的unique alignment。同時軟件還可以統(tǒng)計(jì)出甲基化的類型如CpG、CHG或者CHH等。

1、軟件安裝

下載地址(github):https://github.com/FelixKrueger/Bismark.git

關(guān)聯(lián)軟件:samtools,bowtie/bowtie2

安裝方法:

git clonehttps://github.com/FelixKrueger/Bismark.git

tar-zxvf bismark_v0.15.0.tar.gz

2、軟件使用方法

bismark軟件分析BSSeq數(shù)據(jù)主要分為三個步驟:構(gòu)建基因組并創(chuàng)建bowtie2索引,4次DNAmapping,統(tǒng)計(jì)bam文件中的信息

※構(gòu)建基因組創(chuàng)建索引

選擇bismark軟件中的bismark_genome_preparation工具,需要給定bowtie2的路徑以及參考基因的路徑(包含fa和fai文件),操作代碼如下:

bismark_genome_preparation--path_to_bowtie2/usr/local/bowtie2/--verbose/data/genomes/homo_sapiens/GRCh37/

※mapping

選擇bismark工具進(jìn)行mapping,需要給出基因組路徑(第一步中--verbose路徑),用法如下

bismark[options]{-1-2|}

例如:bismark--bowtie2--path_to_bowtie/home/novelbio/software/bowtie2/../GRCH37/-1 filtered.1.fq.gz-2 filtered.2.fq.gz-o result/

雙端數(shù)據(jù)需要輸入-1與-2,單端數(shù)據(jù)直接輸入即可

※統(tǒng)計(jì)bam文件信息

選擇bismark_methylation_extractor工具進(jìn)行統(tǒng)計(jì),用法如下:

用法:bismark_methylation_extractor[options]

測試使用代碼./bismark_methylation_extractor SRR534203_filtered.fq.gz_bismark_bt2.bam-s--gzip--bedGraph--genome_folder../ath_tair10/

其中輸入文件為第二部生成的bam文件,-s代表單端bam文件,-p代表雙端bam文件--gzip代表對結(jié)果文件進(jìn)行壓縮--bedGragh代表生成帶有甲基化率的bed文件

3、結(jié)果展示

※創(chuàng)建參考基因組

bismark將基因組的fa文件轉(zhuǎn)化為兩份,并分別使用bowtie2構(gòu)建索引

※Mapping結(jié)果

Mapping的結(jié)果中提供了reads的Mapping率,uniqueMapping情況,以及不同種類的甲基化程度

bam文件記錄展示:SRR534203.2_SN608_VA028:5:1101:24.50:89.20_length=50 16 chr3 6025118 42 49M*0 0

CTCACATCAATAAAATCTAATTCAATCCTCACCTCATCTTCAAAATAAA

FGIIIHDEJHDJIIGGIGIHHCHHGCJHFGCIHFJIHHHHHHFFDDD=1

NM:i:8 MD:Z:9G1G1G0G3G0G23G0G4

XM:Z:.........x.h.hh...xh.......................hh....XR:Z:CT XG:Z:GA

在每條reads記錄中提供了該位點(diǎn)的甲基化情況,在XM:Z:記錄中,"."代表不是甲基化位點(diǎn),"z/Z"代表CpG位點(diǎn),其中z代表未發(fā)生甲基化位點(diǎn),Z代表發(fā)生甲基化的位點(diǎn),

“x/X"代表CHG位點(diǎn),"h/H"代表CHH位點(diǎn),“u/U"代表CN或CHN位點(diǎn)

在生成的mapping Report結(jié)果匯總提到的發(fā)生CpG甲基化的位點(diǎn)個數(shù)其實(shí)就是全部reads中出現(xiàn)"Z"的數(shù)量總和,其他種類甲基化的算法也是一樣,甲基化率則根據(jù)(發(fā)生甲基化數(shù)量/(發(fā)生+未發(fā)生))計(jì)算

※統(tǒng)計(jì)結(jié)果

結(jié)果統(tǒng)計(jì)信息截圖

其中.bismark.cov.gz文件記錄了每個甲基化位點(diǎn)的覆蓋度,包含發(fā)生甲基化的reads數(shù),未發(fā)生甲基化的reads數(shù)以及甲基化頻率,截圖如上右

bedGraph.gz文件以bed文件的格式記錄了甲基化位點(diǎn)的甲基化頻率

CpG_report.txt.gz文件記錄了位點(diǎn),覆蓋度以及附近的位點(diǎn)信息

CpG_OT/OB文件記錄了每一條reads的CpG甲基化情況,OT代表original top strand,OB代表original bottom strand,文件截圖如下: