一、find_circ簡介
find_circ 通過識別junction reads 來預(yù)測circRNA和參考基因組比對完之后,首先剔除和基因組完全比對的reads,保留沒比對上的reads, 這部分reads 直接比是比對不上基因組的,因?yàn)槠鋪碜圆煌耐怙@子區(qū)域,直接比對的話不允許這么大片段的缺失,那么如何區(qū)分剪切的spliced read 和 來自環(huán)狀RNA的junction read呢,從上面的示意圖我們可以直接看出,spliced read 的兩部分比對在基因組上的前后位置和轉(zhuǎn)錄本中的位置保持一致,而來自circRNA的junction read 其比對的位置是相反的;具體操作的時(shí)候,首先從junction read的5'端和3'端取一部分序列,分別叫做5' anchor 和 3" anchor, 如果兩個(gè)序列比對的位置是相反的,這條reads 就是一個(gè)可能的junction read, 然后將anchor read 一直延伸,直到連接處為止,如果到連接處為止序列都能夠完全匹配,再看連接點(diǎn)處的剪切模式是否符合AG-GT的剪切模式,如果以上條件都滿足,就認(rèn)定這是一個(gè)circRNA。
通過對不同組織中的circRNA 進(jìn)行預(yù)測,發(fā)現(xiàn)不同組織中存在的circRNA的數(shù)量和種類是有差別的,就是說circRNA 具有組織特異性。
對人的不同的細(xì)胞系進(jìn)行環(huán)狀RNA的預(yù)測,發(fā)現(xiàn)不同細(xì)胞系中存在的circRNA的數(shù)量和種類都是有差異的,說明circRNA 具有組織特異性;
預(yù)測得到的circRNA如何驗(yàn)證:
以上面的circRNA 為例,通常為擴(kuò)增這一區(qū)域的線性RNA, 我們采用的引物都是Convertgent 所示的方向,但是為了擴(kuò)增circRNA, 引物的方向應(yīng)該是Divergent 方向。
通過電泳的結(jié)果可以看到,對于cDNA , 使用Divergent 方向的引物可以擴(kuò)增出circRNA 片段,而對于基因組DNA(gDNA), 則擴(kuò)增不出對應(yīng)的片段來。
二、find_cri使用流程
1) 基因組建索引:bowtie2-build genome.fa genome.fa(bowtie2v2.2.1)。
2) 安裝python包:numpy (http://www.numpy.org/)和pysam (https://pypi.python.org/pypi/pysam)。
3) 建立一個(gè)文件夾genome,里面存放基因組中各個(gè)染色體的fasta文件,文件命名需同基因組fasta文件里的id相同。
4) 將處理后的讀段比對到參考基因組上并將結(jié)果排序和轉(zhuǎn)換成BAM格式:
bowtie2 –p 20 - -very-sensitive --score-min=C,-15,0 –q –x genome.fa -1 sample_1.fastq -2 sample_2.fastq 2>log/sam- ple.bowtie2.log| samtools view -hbuS - |samtools sort – sample
5) 取出未匹配上的讀段:samtools view -hf 4 sample.bam|samtools view -Sb -> BAM/unmapped_sample. bam。
6) 將未匹配的讀段兩端各取20 bp作為錨點(diǎn)序列:python unmapped2anchors.py BAM/unmapped_ sample.bam|gzip>gzip/sample_anchors.qfa.gz。