波多野结衣AV高清一区二区三区|日韩精品久久久久网站|99re免费视频国产在线播放|国产手机在线αⅴ片无码观看|

服務(wù)熱線02152235399
當(dāng)前位置:博客 > 生物信息

find_cric安裝及使用說明

時(shí)間:2018-10-19    |    閱讀量:8828

一、find_circ簡介

find_circ 通過識別junction reads 來預(yù)測circRNA和參考基因組比對完之后,首先剔除和基因組完全比對的reads,保留沒比對上的reads, 這部分reads 直接比是比對不上基因組的,因?yàn)槠鋪碜圆煌耐怙@子區(qū)域,直接比對的話不允許這么大片段的缺失,那么如何區(qū)分剪切的spliced read 和 來自環(huán)狀RNA的junction read呢,從上面的示意圖我們可以直接看出,spliced read 的兩部分比對在基因組上的前后位置和轉(zhuǎn)錄本中的位置保持一致,而來自circRNA的junction read 其比對的位置是相反的;具體操作的時(shí)候,首先從junction read的5'端和3'端取一部分序列,分別叫做5' anchor 和 3" anchor, 如果兩個(gè)序列比對的位置是相反的,這條reads 就是一個(gè)可能的junction read, 然后將anchor read 一直延伸,直到連接處為止,如果到連接處為止序列都能夠完全匹配,再看連接點(diǎn)處的剪切模式是否符合AG-GT的剪切模式,如果以上條件都滿足,就認(rèn)定這是一個(gè)circRNA。

通過對不同組織中的circRNA 進(jìn)行預(yù)測,發(fā)現(xiàn)不同組織中存在的circRNA的數(shù)量和種類是有差別的,就是說circRNA 具有組織特異性。

對人的不同的細(xì)胞系進(jìn)行環(huán)狀RNA的預(yù)測,發(fā)現(xiàn)不同細(xì)胞系中存在的circRNA的數(shù)量和種類都是有差異的,說明circRNA 具有組織特異性;

預(yù)測得到的circRNA如何驗(yàn)證:

以上面的circRNA 為例,通常為擴(kuò)增這一區(qū)域的線性RNA, 我們采用的引物都是Convertgent 所示的方向,但是為了擴(kuò)增circRNA, 引物的方向應(yīng)該是Divergent 方向。

通過電泳的結(jié)果可以看到,對于cDNA , 使用Divergent 方向的引物可以擴(kuò)增出circRNA 片段,而對于基因組DNA(gDNA), 則擴(kuò)增不出對應(yīng)的片段來。

二、find_cri使用流程

1) 基因組建索引:bowtie2-build genome.fa genome.fa(bowtie2v2.2.1)。

2) 安裝python包:numpy (http://www.numpy.org/)和pysam (https://pypi.python.org/pypi/pysam)。

3) 建立一個(gè)文件夾genome,里面存放基因組中各個(gè)染色體的fasta文件,文件命名需同基因組fasta文件里的id相同。

4) 將處理后的讀段比對到參考基因組上并將結(jié)果排序和轉(zhuǎn)換成BAM格式:

bowtie2 –p 20 - -very-sensitive --score-min=C,-15,0 –q –x genome.fa -1 sample_1.fastq -2 sample_2.fastq 2>log/sam- ple.bowtie2.log| samtools view -hbuS - |samtools sort – sample

5) 取出未匹配上的讀段:samtools view -hf 4 sample.bam|samtools view -Sb -> BAM/unmapped_sample. bam。

6) 將未匹配的讀段兩端各取20 bp作為錨點(diǎn)序列:python unmapped2anchors.py BAM/unmapped_ sample.bam|gzip>gzip/sample_anchors.qfa.gz。