find_cric安裝及使用說(shuō)明

時(shí)間：2018-10-19 | 閱讀量：9015

一、find_circ簡(jiǎn)介

find_circ 通過(guò)識(shí)別junction reads 來(lái)預(yù)測(cè)circRNA和參考基因組比對(duì)完之后，首先剔除和基因組完全比對(duì)的reads,保留沒(méi)比對(duì)上的reads, 這部分reads 直接比是比對(duì)不上基因組的，因?yàn)槠鋪?lái)自不同的外顯子區(qū)域，直接比對(duì)的話不允許這么大片段的缺失，那么如何區(qū)分剪切的spliced read 和來(lái)自環(huán)狀RNA的junction read呢，從上面的示意圖我們可以直接看出，spliced read 的兩部分比對(duì)在基因組上的前后位置和轉(zhuǎn)錄本中的位置保持一致，而來(lái)自circRNA的junction read 其比對(duì)的位置是相反的；具體操作的時(shí)候，首先從junction read的5'端和3'端取一部分序列，分別叫做5' anchor 和 3" anchor, 如果兩個(gè)序列比對(duì)的位置是相反的，這條reads 就是一個(gè)可能的junction read, 然后將anchor read 一直延伸，直到連接處為止，如果到連接處為止序列都能夠完全匹配，再看連接點(diǎn)處的剪切模式是否符合AG-GT的剪切模式，如果以上條件都滿足，就認(rèn)定這是一個(gè)circRNA。

通過(guò)對(duì)不同組織中的circRNA 進(jìn)行預(yù)測(cè)，發(fā)現(xiàn)不同組織中存在的circRNA的數(shù)量和種類是有差別的，就是說(shuō)circRNA 具有組織特異性。

對(duì)人的不同的細(xì)胞系進(jìn)行環(huán)狀RNA的預(yù)測(cè)，發(fā)現(xiàn)不同細(xì)胞系中存在的circRNA的數(shù)量和種類都是有差異的，說(shuō)明circRNA 具有組織特異性；

預(yù)測(cè)得到的circRNA如何驗(yàn)證：

以上面的circRNA 為例，通常為擴(kuò)增這一區(qū)域的線性RNA, 我們采用的引物都是Convertgent 所示的方向，但是為了擴(kuò)增circRNA, 引物的方向應(yīng)該是Divergent 方向。

通過(guò)電泳的結(jié)果可以看到，對(duì)于cDNA , 使用Divergent 方向的引物可以擴(kuò)增出circRNA 片段，而對(duì)于基因組DNA(gDNA), 則擴(kuò)增不出對(duì)應(yīng)的片段來(lái)。

二、find_cri使用流程

1) 基因組建索引：bowtie2-build genome.fa genome.fa(bowtie2v2.2.1)。

2) 安裝python包：numpy (http://www.numpy.org/)和pysam (https://pypi.python.org/pypi/pysam)。

3) 建立一個(gè)文件夾genome，里面存放基因組中各個(gè)染色體的fasta文件，文件命名需同基因組fasta文件里的id相同。

4) 將處理后的讀段比對(duì)到參考基因組上并將結(jié)果排序和轉(zhuǎn)換成BAM格式：

bowtie2 –p 20 - -very-sensitive --score-min=C,-15,0 –q –x genome.fa -1 sample_1.fastq -2 sample_2.fastq 2>log/sam- ple.bowtie2.log| samtools view -hbuS - |samtools sort – sample

5) 取出未匹配上的讀段：samtools view -hf 4 sample.bam|samtools view -Sb -> BAM/unmapped_sample. bam。

6) 將未匹配的讀段兩端各取20 bp作為錨點(diǎn)序列：python unmapped2anchors.py BAM/unmapped_ sample.bam|gzip>gzip/sample_anchors.qfa.gz。

上一篇：CIRI安裝及使用說(shuō)明下一篇：DifGene提升靈敏度測(cè)試總結(jié)報(bào)告

微信 QQ 微博