波多野结衣AV高清一区二区三区|日韩精品久久久久网站|99re免费视频国产在线播放|国产手机在线αⅴ片无码观看|

服務熱線02152235399
當前位置:博客 > 單細胞

單細胞轉錄組測序數(shù)據(jù)分析(二)

時間:2019-09-30    |    閱讀量:11411

單細胞轉錄組測序產生的數(shù)據(jù)是成百上千個基因在上萬個細胞中的表達情況,屬于高維數(shù)據(jù),我們需要對數(shù)據(jù)進行嚴格的質控與過濾,將合格的數(shù)據(jù)降維到低維子空間,使數(shù)據(jù)可視化。

上一期已經帶大家了解了scRNA-Seq數(shù)據(jù)的預處理,那么本期,小編就來介紹一下數(shù)據(jù)分析的標準化與聚類分析。

一、上海烈冰科技數(shù)據(jù)分析流程介紹


二、工具介紹

Seurat_Normalized(標準化)——采用Seurat package對數(shù)據(jù)進行過濾并校正批次效應(Batch Effect),采用PCA算法及tSNE算法對基因表達矩陣進行降維處理和信息可視化展示。

Seurat_Cluster(聚類分析)——根據(jù)基因表達的情況,通過無監(jiān)督聚類算法(Graph-based clusteringk-means clustering) 將降維后的細胞聚類分群。再通過Wilcoxon秩和檢驗分析計算出不同細胞類群的標識基因(Marker Gene),并對所屬細胞類群進行推測和鑒定。

三、結果展示

(一) 數(shù)據(jù)標準化

1.線粒體RNA占比:

由于Dead Cell胞內RNA會流出,線粒體RNA占比會隨之增高,因此我們一般通過設定線粒體RNA占比閾值來過濾Dead Cell

左圖描述了每個細胞線粒體RNA占比—UMI數(shù)量相關性,紅色和黑色圓點代表兩個樣本的細胞。X軸代表每個細胞對應的UMI數(shù)量,Y軸代表每個細胞線粒體RNA占比;右圖為細胞線粒體RNA占比分布的Violin圖。

圖中線粒體RNA占比閾值建議設為0.2,線粒體RNA占比超過0.2的細胞認為是Dead Cell,可將其過濾掉。當然,不同類型的細胞線粒體RNA占比也不同,例如心肌細胞、肝細胞等高代謝、凋亡類細胞,其線粒體RNA占比相對較高。因此,需要結合具體的細胞類型來最終決定線粒體RNA占比的閾值。

2.細胞的基因數(shù)量:

我們一般通過設定細胞的最小基因數(shù)量去除假細胞和低質量細胞(Low Quality Cell);通過設定細胞的最大基因數(shù)量可以一定程度上去除雙細胞(Doublet Cell)。

左圖為每個細胞的基因—UMI數(shù)量相關性分析圖,右圖為每個細胞基因數(shù)量分布的Violin圖。圖中基因數(shù)量閾值建議設定為200-6000,可有效去除假細胞、低質量細胞和雙細胞。

3.PCA分析:

該圖主要描述了不同樣本中所有細胞在PC1PC2(即主成分分析中影響最大的兩個主成分)所組成的面中的定位情況。

4.t-SNE圖:

主要展示了每個樣本中所有細胞的tSNE定位情況、樣本融合情況,以及通過基因數(shù)量、UMI數(shù)量、線粒體RNA占比進行染色的情況,如下所示:

(二)聚類分析

1.細胞分群的t-SNE圖:

該圖代表t-SNE定位并基于Graphcluster或者KMean算法無監(jiān)督聚類后的分群情況。

左圖中cluster8被其他群分割成兩部分,這樣的t-SNE分群結果并不是特別理想。建議調整分析時的resolution參數(shù),將其調大,使分群更加細致。將resolution參數(shù)由0.8調至1.0,得到右圖較好的t-SNE分群結果。

2. Top20 Marker基因的Heatmap

可觀察特定marker基因在不同cluster的表達差異,以此初步判斷細胞類型及類群合并。采用細線區(qū)分不同的Cluster,顏色深淺代表基因表達高低,其中黃色為高表達,暗紅色為低表達。根據(jù)各cluster的基因表達的整體類似度,下圖可以初步判斷將cluster0、3合為一群,cluster6、7合為一群,cluster5、812合為一群。

3.Feature plot

該圖主要描繪了選定Cluster Marker 基因在所有單細胞中的分布情況,更加直觀的了解marker基因的整體表達情況,用于判定cluster所屬的細胞類型。根據(jù)經典特異性marker基因的Feature plot,可以初步判斷出T細胞(CD3D)、巨噬細胞(組織樣本C1QA)、B細胞(CD79A)、成纖維細胞(DCN)、內皮細胞(VWF、CLDN5)及上皮細胞(KRT18、EPCAM)。

4.細胞類型鑒定結果tSNE圖:

下圖就是原始的tSNE分類結果,共有18個類群,此時要結合第3步中Marker基因特異性表達的結果對Cluster進行合并。

5.細胞亞型分群圖:

該圖將0、1、2、3、49 Cluster合并為T細胞(CD3D);將5、8、12 Cluster合并為巨噬細胞(組織樣本C1QA);將11、13 Cluster合并為B細胞(CD79A);16 Cluster為成纖維細胞(DCN);14 Cluster為內皮細胞(VWF、CLDN5);將67、1015、17 Cluster合并為上皮細胞(KRT18、EPCAM)。

后續(xù)可以將自己關注的細胞亞型再次細分,并進行其功能性分析,為解讀生物學意義細節(jié)提供基礎,后續(xù)講解會詳細介紹。


綜上所述,通過標準化將數(shù)據(jù)過濾后通過PCA降維,并形成t-SNE可視化結果;降維后的矩陣進行細胞聚類分析,并計算出各類群的marker基因及表達量,以鑒定所屬的細胞類型。

細胞類型鑒定后就可以進行后續(xù)深層次的擬時序分析(Pseudotime)、及SCENIC分析。后續(xù)小編將一一講解哦~