波多野结衣AV高清一区二区三区|日韩精品久久久久网站|99re免费视频国产在线播放|国产手机在线αⅴ片无码观看|

服務(wù)熱線02152235399
當(dāng)前位置:博客 > 生物信息

Trinity轉(zhuǎn)錄組組裝測試計(jì)劃

時(shí)間:2018-10-18    |    閱讀量:7587


引言

1.1編寫目的

進(jìn)行該測試以及撰寫此報(bào)告有以下幾個(gè)目的:

1) 通過使用Trinity軟件,進(jìn)行不同組裝策略的轉(zhuǎn)錄組組裝測試,得到組裝效果最好的組裝策略;

2) Trinity組裝所需時(shí)間,內(nèi)存及存儲(chǔ)峰值評(píng)估;

1.2背景

由于第二代測序測序讀長短、質(zhì)量值偏低、數(shù)據(jù)量大。目前轉(zhuǎn)錄組組裝面臨的問題主要有:1)轉(zhuǎn)錄本覆蓋度不均勻,一些轉(zhuǎn)錄本覆蓋度很低,一些則會(huì)跟高;2)由于序列本身的偏向性,轉(zhuǎn)錄本內(nèi)reads覆蓋度存在不一致的可能;3)與一個(gè)測序正確但低表達(dá)的轉(zhuǎn)錄本相比,一個(gè)有測序錯(cuò)誤但高表達(dá)的轉(zhuǎn)錄本,其表達(dá)豐度可能更高;4)由于可變剪切,構(gòu)建數(shù)據(jù)結(jié)構(gòu)需考慮到一個(gè)基因有多個(gè)轉(zhuǎn)錄本的可能;5)來自不同基因的重復(fù)序列可能給組裝帶來歧義。

本次工作的目的在于通過不同組裝策略的測試,以得到一種最優(yōu)的組裝方案。組裝策略主要有以下幾種:

1) 6個(gè)樣品單獨(dú)組裝,然后將組裝結(jié)果進(jìn)行聚類;

2) 6個(gè)樣品數(shù)據(jù)放在一起組裝;

3) 6個(gè)樣品提取高質(zhì)量數(shù)據(jù),進(jìn)行組裝,低質(zhì)量數(shù)據(jù),進(jìn)行組裝;然后聯(lián)合組裝;

4) 使用Genome-guided參數(shù)與不使用該參數(shù)

1.3用戶群

主要讀者:公司研發(fā)部,公司管理人員。

其他讀者:項(xiàng)目及銷售相關(guān)人員。

1.4 數(shù)據(jù)對(duì)象

物種

數(shù)據(jù)類型

樣品個(gè)數(shù)

測序類型

水稻

mRNA

6個(gè)

PE90

1.5 測試階段

軟件測試

1.6測試工具

1) Perl;

2) Trinity

1.7 參考資料

1) Brian J Haas,  Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.

2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,

.測試概要

關(guān)于此項(xiàng)測試工作從2014年4月10日開始預(yù)計(jì)到2014年5月30日結(jié)束。

2.1 主要測試內(nèi)容如下:

1) Trinity安裝以及測試;

2) 測試數(shù)據(jù)獲取及處理;

3) 編寫任務(wù)腳本及任務(wù)提交;

4) TCICL安裝以及測試;

5) 組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì);

6) 不同組裝方法結(jié)果比較;

7) 編寫結(jié)果報(bào)告

2.2 測試詳細(xì)思路描述:

1) 6個(gè)樣品單獨(dú)組裝;

2) 6個(gè)樣品組裝結(jié)果,使用TGICL進(jìn)行聚類,組裝成UniGene;

3) 6個(gè)樣品各取約2.5G數(shù)據(jù),合起來共約16G數(shù)據(jù)組裝,(因6個(gè)樣品所有數(shù)據(jù)24G,數(shù)據(jù)量太大,trinity跑不通);

4) 取一個(gè)樣品使用Genome-guided  參數(shù),用有參考序列的組裝方式進(jìn)行組裝;

5) 比較使用一個(gè)樣品(4G數(shù)據(jù)),與使用6個(gè)樣品(16G數(shù)據(jù))的組裝結(jié)果差異

6) 比較使用6個(gè)樣品單獨(dú)組裝,然后聚類成的UniGene,與6個(gè)樣品數(shù)據(jù)合起來(16G數(shù)據(jù))組裝結(jié)果差異

7) 比較使用Genome-guided  參數(shù),和不使用Genome-guided  參數(shù)結(jié)果差異

2.3工作計(jì)劃進(jìn)展

測試內(nèi)容

計(jì)劃開始時(shí)間

實(shí)際開始時(shí)間

計(jì)劃完成時(shí)間

實(shí)際完成時(shí)間

工作完成情況

軟件安裝以及測試

2014年4月10日

2014年4月10日

2014年4月10日

2014年4月10日

已完成

測試數(shù)據(jù)獲取及前期處理

2014年4月10日

2014年4月18日

2014年4月14日

2014年4月18日

已完成

編寫任務(wù)腳本及任務(wù)提交

2014年4月20日

2014年4月19日

2014年4月28日

2014年5月4日

已完成

TCICL安裝以及測試

2014年4月21日

2014年4月28日

2014年4月29日

2014年5月15日

完成

組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì)

2014年4月29日

2014年5月16日

2014年5月15日

2014年5月20日

完成

不同組裝方法結(jié)果比較

2014年5月17日

2014年5月20日

2014年5月21日

2014年5月21日

完成

編寫結(jié)果報(bào)告

2014年5月21日

2014年5月21日

2014年5月22日

2014年5月22日

完成

2.2測試執(zhí)行

此次測試嚴(yán)格按照項(xiàng)目計(jì)劃和測試計(jì)劃執(zhí)行,按時(shí)完成了測試計(jì)劃規(guī)定的測試對(duì)象的測試。針對(duì)測試計(jì)劃制定規(guī)定的測試策略,依據(jù)測試計(jì)劃和測試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀測的關(guān)鍵參數(shù)進(jìn)行了完整的測試。

2.3測試用例

2.3.1功能性

1) 1.測試Trinity軟件,可以正常運(yùn)行。

2) 2.測試TGICL軟件,可以正常運(yùn)行

3) 3.評(píng)估不同組裝策略組裝質(zhì)量狀況。

測試環(huán)境

3.1軟硬件環(huán)境

硬件環(huán)境

服務(wù)器

硬件配置

CPU:Intel Xeon 2.66GHz *20

Memory:90GB

HD:29TB

軟件配置

OS:Fedora release 14,Ubuntu 12.10

Trinity

網(wǎng)絡(luò)環(huán)境

20M LAN

測試結(jié)果

使用不同方法組裝統(tǒng)計(jì)結(jié)果見如下表格:

物種

水稻

組裝策略

直接組裝

直接組裝

直接組裝

直接組裝

直接組裝

直接組裝

6個(gè)樣品部分?jǐn)?shù)據(jù)合并組裝

3個(gè)樣品單獨(dú)組裝后,再聚類

4個(gè)樣品單獨(dú)組裝后,再聚類

5個(gè)樣品單獨(dú)組裝后,再聚類

數(shù)據(jù)量

4G

4G

4G

4G

4G

4G

16G

12G

16G

20G

樣品名稱

CQ9522_2mm_1A

CQ9522_2mm_2A

CQ9522_4mm_1A

CQ9522_4mm_2A

CQ9522_6mm_1A

eg1D34_1A

Sample6All

Sample3Culster

Sample4Culster

Sample5Culster

Total sequences

45444

45345

47746

47915

48173

48561

283184

53007

58131

62566

Total bases

42320514

42218957

44463230

44589916

44968574

45256330

263817521

52432158

59334530

65271000

Min sequence length

201

201

201

201

201

201

201

201

201

201

Max sequence length

13797

13797

12820

14676

14693

13288

14693

13797

15307

15307

Average sequence length

931.27

931.06

931.25

930.6

933.48

931.95

931.61

989.16

1020.7

1043.23

Median sequence length

583

582

601

582

580

601

587

627

642

657

N25 length

2398

2398

2331

2414

2415

2320

2379

2545

2654

2723

N50 length

1504

1503

1483

1498

1520

1474

1496

1612

1681

1732

N75 length

773

773

788

770

782

780

778

867

910

946

N90 length

375

375

378

375

375

381

376

398

409

420

N95 length

282

282

284

285

282

289

284

286

289

290

querygene number

39461

39376

40564

40759

40673

41318

109371

44589

48253

51281

subjectgene number

41754

41609

41338

41977

41652

41396

46500

43770

44768

45443

gene region alignment percentage

61.11%

61.17%

61.97%

62.81%

62.49%

62.49%

67.13%

62.73%

64.21%

64.33%

組裝reads使用率

91.76%

90.79%

91.36%

91.45%

90.11%

91.42%

94.43%

92.69%

93.28%

93.72%

存儲(chǔ)峰值

35G

35G

35G

35G

35G

35G

200G

80G

80G

80G

內(nèi)存峰值

38G

38G

38G

38G

38G

38G

90G

78G

78G

78G

運(yùn)行時(shí)間(小時(shí))

3

3

3

3

3

3

18

3+1

3+1.2

3+1.5

4.1 軟件安裝

1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);

2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;

3) 安裝TGICL(TGICL-2.1.tar.gz) ;

4) 安裝CD-HIT;

5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz  );

五.測試結(jié)論與討論

從上述統(tǒng)計(jì)結(jié)果可以看出

1) 對(duì)于Contigs N50:樣品單獨(dú)組裝與合并clean data數(shù)據(jù)后組裝的N50差不多,樣品單獨(dú)組裝后合并略有提升。

2) Contigs數(shù)量:樣品單獨(dú)組裝后合并contigs數(shù)量比單個(gè)樣品組裝contigs數(shù)量稍多,合并并clean data數(shù)據(jù)后組裝contigs數(shù)量明顯增多(但是,數(shù)量太多)

3) Reads 使用率:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

4) 基因區(qū)域覆蓋度:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

5) 另外:

6) Genome-guided 模式?jīng)]有測通,故不在此次比較范圍內(nèi);

7) 6個(gè)樣品單獨(dú)組裝后聚類,TGICL沒有跑通,故使用了3個(gè)樣品聚類、4個(gè)樣品聚類、5個(gè)樣品聚類的結(jié)果進(jìn)行比較。

8) CD-HIT是另外一種聚類軟件,2個(gè)樣品聚類可以成功運(yùn)行,但是3個(gè)樣品聚類時(shí),一直顯示任務(wù)運(yùn)行但是無結(jié)果,也不報(bào)錯(cuò)。

六.測試總結(jié)

根據(jù)本次測試結(jié)果,綜合考慮到內(nèi)存、運(yùn)行時(shí)間、組裝結(jié)果、存儲(chǔ)等因素,樣品單獨(dú)組裝后聚類的效果比較好。