在這個時代,各行各業(yè)都對大數(shù)據(jù)癡迷,基因組學(xué)也不例外。也許,這源于一種與生俱來的需求,我們渴望了解遺傳組成如何控制人類生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN網(wǎng)站上討論了大數(shù)據(jù)帶來的挑戰(zhàn)。
在這個時代,各行各業(yè)都對大數(shù)據(jù)癡迷,基因組學(xué)也不例外。也許,這源于一種與生俱來的需求,我們渴望了解遺傳組成如何控制人類生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN網(wǎng)站上討論了大數(shù)據(jù)帶來的挑戰(zhàn)。
Buguliskis認(rèn)為,基因組學(xué)領(lǐng)域?qū)π畔⒌男枨箝_始于二十年前,也就是芯片技術(shù)出現(xiàn)的時候。這是科學(xué)家第一次引入大規(guī)模的基因組數(shù)據(jù)集。當(dāng)然,這僅僅是開始。2003年人類基因組計劃的完成不僅讓科學(xué)家去尋找更經(jīng)濟的方法進行測序,也進一步激發(fā)了他們分析大數(shù)據(jù)集的胃口。
短短數(shù)年,迅速發(fā)展的新一代測序(NGS)平臺產(chǎn)生了呈指數(shù)增長的數(shù)據(jù),比人們想象得更快速,也更經(jīng)濟。GenoSpace的COO Daniel Meyer談道:“自2005年以來,測序成本已下降了四個數(shù)量級,而新技術(shù)讓我們能夠比以前更快地產(chǎn)生更多數(shù)據(jù)。隨著數(shù)據(jù)生成接近商品化,最大的挑戰(zhàn)已經(jīng)轉(zhuǎn)移到有效的分析和解釋?!?
的確,NGS提高了測序的速度,降低了測序的成本。然而,它并沒有解決與數(shù)據(jù)采集有關(guān)的任何問題,不僅如此,它還大大增加了文件的大小。NGS的讀長更短,就全基因組測序而言大約在50-100 bp,但讀取數(shù)量驚人,大大超過傳統(tǒng)的Sanger測序。此外,各個國際聯(lián)盟也在開展規(guī)模宏大的項目,比如千人基因組計劃,英國的10K計劃,動輒產(chǎn)生PB級的數(shù)據(jù)。
Buguliskis認(rèn)為,在許多方面,生命科學(xué)的大數(shù)據(jù)是基礎(chǔ)設(shè)施的問題。大多數(shù)研究人員沒有能力分析現(xiàn)代NGS平臺產(chǎn)生的數(shù)據(jù)集。例如,對于讀長100 bp和50倍覆蓋度的外顯子組測序運行,原始數(shù)據(jù)大約在1.-1.5 TB,而多次重復(fù)后的數(shù)據(jù)大約需要3-5 TB的存儲空間。即使計算機存儲器的價格在不斷走低,但要有足夠的硬盤空間去存儲多次運行的數(shù)據(jù)也并非易事。
雖然數(shù)據(jù)采集和管理是許多機構(gòu)關(guān)注的問題,但NGS要想成為精準(zhǔn)醫(yī)學(xué)的一部分,絆腳石可不止這些。有人認(rèn)為,NGS的各個領(lǐng)域都需要標(biāo)準(zhǔn)化,才能成為臨床醫(yī)學(xué)中的強大工具。
此外,科學(xué)家也一直在尋找更輕松、更快速且更高效的分析方法。“我相信,云計算及通過高度可擴展的計算資源共同查找大數(shù)據(jù)的能力正對簡化數(shù)據(jù)分析產(chǎn)生積極的影響,隨著更多數(shù)據(jù)以及更廣泛的分析程序遷移到云端,這種趨勢將繼續(xù)下去,”Illumina的副總裁Scott Kahn談道。
同時,測序方面的進步也在間接地協(xié)助數(shù)據(jù)分析流,實現(xiàn)更加準(zhǔn)確的讀取比對,并開辟了新的研究方法。AllSeq的首席科學(xué)官Shawn Baker認(rèn)為:“最有意思的事情是長讀取。獲得真正的長讀取(>10 kb)將明顯改善比對過程,實現(xiàn)單體型等過去不可能的新分析。長讀取技術(shù)目前已上市,不過它與短讀取平臺相比要貴一到兩個數(shù)量級?!?
最后,作者也提到了第三代測序技術(shù)。這種方法跳過了DNA擴增,避免了PCR偏向,讓遺傳物質(zhì)在單分子水平上直接測序。目前,只有幾家公司提供這種測序平臺,而且價格較高。