最近在分析一個(gè)重測(cè)序的SV過(guò)程中出現(xiàn)了一些問(wèn)題,在使用lumpyExpression分析時(shí),獲得disordants Reads的時(shí)候出現(xiàn)異常,幾乎獲得的全部的mappingReads,原因探查過(guò)程如下:
提取disordants Reads的時(shí)候使用的方法是samtools,根據(jù)每一條reads的FLAG進(jìn)行判斷,具體代碼如下:
samtools view -b -F 1294 sample.bam > sample.discordants.bam
-F代表過(guò)濾掉對(duì)應(yīng)FLAG的reads,1294代表reads的FLAG情況,具體包含的reads如下,在這一步驟的核心是要過(guò)濾掉“read mapped in proper pair"的reads,即左右兩端mapping在一致區(qū)域的reads
這個(gè)html為一個(gè)小程序,如上面的截圖,輸入Flag的編號(hào)可以得到對(duì)應(yīng)哪些類型的Reads
在BWA mem的軟件參數(shù)中包含一個(gè) -P參數(shù),具體介紹如下:
-P In the paired-end mode, perform SW to rescue missing hits only but do not try to find hits that fit a proper pair.
說(shuō)明如果輸入-P參數(shù),在mapping的過(guò)程中或跳過(guò)fit a proper pair的步驟,也就意味著結(jié)果不會(huì)給出read mapped in proper pair這樣的一個(gè)FLAG,而我們平臺(tái)現(xiàn)在的BWA mem代碼包含這樣一個(gè)參數(shù),如下:
具體參數(shù)測(cè)試結(jié)果如下:
包含 -P 參數(shù):
同樣的的reads的FLAG變成了83和163,代表含義如下,包含read mapped in proper pair的注釋
由此可見(jiàn)-P參數(shù)會(huì)影響每一條reads的FLAG,由于這種read mapped in proper pair在SV的分析過(guò)程中的判斷是十分重要的,所以建議刪除掉平臺(tái)BWA mem模塊的-P參數(shù)
經(jīng)過(guò)測(cè)試,BWA -p參數(shù)除了影響FLAG外還會(huì)影響readsMapping的位置,在CallSNP過(guò)程中會(huì)造成很大的偏差,測(cè)試結(jié)果如下:
下圖為同一條序列在不同mapping方法中的位置差異,上面為添加-p參數(shù)的結(jié)果,下面為不添加-p的結(jié)果,可以發(fā)現(xiàn),不添加-p組中,每一條reads的左右兩端均可以匹配在臨近區(qū)段,且均在第二號(hào)染色體,而在添加-p組中,reads幾乎全被mapping到9號(hào)染色體上,且左右兩端reads的距離差距非常大,IGV截圖(截圖中為chr9對(duì)應(yīng)區(qū)域,上面為添加-p參數(shù),下面給為不添加-p參數(shù))中也可以發(fā)現(xiàn)添加-p參數(shù)計(jì)算出的SNP位點(diǎn)存在明顯的假陽(yáng)性現(xiàn)象,再次證明-p參數(shù)需要被移除