好不容易拿到了自己的空間轉錄組測序數據,心情激動、躍躍欲試,想趕快去實施一下自己的 idea,可是又不會寫代碼,只能干等著?當然不是,其實 空間轉錄組測序數據 你完全可以實現不寫代碼完成自己大部分數據挖掘的工作。
這里輪到有用的工具 10x genomic Loupe Browser 上場了!Loupe Browser 是 10x genomics 專門開發的用于 10x 相關產品可視化的工具,它其實可以完成很大部分的數據挖掘工作,而且操作簡單,自己有 空間轉錄組測序數據 或單細胞測序數據的確實可以好好利用一下這個軟件。
Loupe Browser 下載地址:
https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest?
下載后直接雙擊安裝就可。
數據準備
Loupe Browser 導入的是 Space Ranger 軟件生成的 cloupe.cloupe 文件。10x genomic Space Ranger 軟件的使用教程可參考:
空間轉錄組第二講:Space Ranger 的使用
前面也介紹過,我們做空間轉錄組測序一般不太可能只做一個樣本,一般會 做空間轉錄組測序 多個樣本同時分析,因為需要進行 空間轉錄組測序目標 亞群數目和基因表達差異的比較,這時候就需要把 空間轉錄組測序數據 多個樣本整合起來一起分析。用 Loupe Browser 挖掘 數據也是一樣,盡量使用多樣本整合后的 cloupe.cloupe 文件。
10x genomic 的軟件 spacerangeraggr 來合并多個空間轉錄組測序的樣本使用教程可參考:
空間轉錄組第五講:10x spaceranger aggr 合并多個樣本
如果前面用 seurat 對數據進行來了分析,我們也可以把 seurat 聚類的結果導入到 Loupe Browser 中進行數據后續的挖掘(cloupe.cloupe 文件也是需要準備的)。
軟件操作介紹
一、文件讀取和 Loupe Browser 整體界面介紹
文件讀取可以選擇簡單的方式,就是雙擊自己的 cloupe.cloupe 文件,當然前提是你已經安裝好 Loupe Browser 軟件。然后會進入如下界面:
A 區為圖像展示和操作區,可以對組織圖像進行操作,也可以展示降維聚類后的 tsne 或 umap 分布圖。
B 區主要對亞群、基因、樣本選擇進行操作。
C 區展示差異基因的結果。
二、查看亞群總體分布
這里可以查看 tsne(umap)圖亞群的分布,也可以查看每個樣本組織切片上亞群的分布。
三、對圖像區域進行操作
主要包括 3 個工具,箭頭展示對應點的亞群信息,套索可以選中某個區域進行操作,可以進行分類或導出,后一個畫筆可以對單個點進行選擇,也可以進行分類或導出。
在這里我們用套索工具挑選了兩群細胞,同時又用畫筆給第二群細胞增加了幾個細胞,因為有時候我們想把個別分散的點加到亞群里去,這個用套索工具是沒辦法實現的。
根據組織切片染色來圈范圍。有時候我們只需要跟組織染色的結果來進行分組劃分區域,這時候顯示 spot 點的信息反而會使組織圖像看不清楚,這里可以使用 spot opacity 工具來調整 spot 的透明度,甚至完全去掉亞群信息,然后再根據組織切片圖像進行區域的選擇。
四、對亞群進行選擇
在右邊區域對亞群進行選擇,可以選中自己想要查看的亞群,然后展示該亞群在樣本組織圖和 tsne(或 umap)降維聚類圖中的分布。
五、對樣本進行選擇
對于數據 tsne 或 umap 的可視化結果同樣可以對樣本進行選擇展示,查看每個樣本的位置分布。
六、查看基因表達
右邊上方選擇 Gene/Feature Eexression,然后下面空白框中輸入需要查看的基因,就可以查看這個基因在亞群以及樣本中的表達分布情況。
七、Marker 基因查看
在界面的下方,可以查看每個亞群對應的 marker 基因信息包括 P 值、FC 等,也可以把 marker 基因差異結果表格導出來。
從上面的操作中可以看發現,不但可以查看和導出亞群上調的基因,也可以導出下調的基因,基因數目則可以選擇 top20、50、100 或者所有基因。
導出的 marker 基因表格如下:
雖然我們只選擇某個亞群的 marker 基因,但是實際上軟件會把這些基因在所有亞群中的差異信息值都導出來。主要包括三列:亞群的平均表達值、log2 foldchage、pvalue。
八、導入自己的 tsne 降維和分類結果
前面我們看到的亞群分類和 tsne 降維結果都是 10x spaceranger 軟件自己計算出來的,有時候我們自己用其他軟件(比如 Seurat)分析后得到的結果也想用 Loupe Browser 軟件來進行可視化和數據的挖掘,這時候可以選擇將自己的亞群分類結果和 tsne 降維坐標信息導入軟件內,替代原有的亞群分類和 tsne 降維展示。
文件準備
tsne 坐標文件 data_tsne.csv:包括 3 列信息(barcode、tSNE_1、tSNE_2)
Cluster 分群文件 data_cluster.csv,除了分群信息我們也可以加入樣本分組信息。
注意文件必須是 csv 格式,且 barcode 的 id 要與 10x spaceranger 跑出的結果一致。
導入文件
開始數據挖掘
重點來咯,敲黑板啦!
前面介紹了 Loupe Browser 的基本操作,下面來介紹一下怎么利用該軟件進行有效的空間轉錄組測序數據挖掘。
一、亞群聚類結果的選擇
從前面的介紹我們知道這里既可以使用 10xspaceranger 軟件聚類的結果,也可以導入 Seurat 聚類的結果。如果同時有著兩種結果可以選擇,那么我們可以挑選一個更優的結果進行后面的分析。理論上這兩種聚類的結果我們都可以選擇用來進行后續的分析,那么哪個更好就需要自己來判斷一下那種結果更符合自己的預期了??梢詮膸讉€方面來判斷:
A、樣本的分布情況:一般來說如果聚類后如果樣本之間沒有交集互相獨立,這樣的結果不是很理想的,說明沒有有效的去除個體差異。但是因為空轉的數據比較特殊,本身不同切片不同區域很難做到 RNA 捕獲的均一性,有時候不同樣本的數據差異就是很大,強行通過歸一化或其他方法去除個體差異反而會使結果失真。
注:這個示例圖左邊是 spaceranger 的結果,右邊是 Seurat 聚類的結果,單從樣本分布來看 spaceranger 的結果是更佳的。
B、結合組織切片染色結果來判斷:組織切片區域的構成、病理狀態的分布對于判斷亞群的分布是否符合預期可能更有用。比如說從組織切片上已經知道某個區域就是屬于某一類細胞,那么這一區域的細胞聚成一類的結果肯定更合適的。
注:示例圖里 spaceranger 的結果(左邊)相對來說比 seurat 的聚類結果(中間)更符合組織切片上的紋路。
二、亞群分布比較
我們拿到數據的首步,一般會先看一下不同亞群在不同樣本里的分布情況,哪些亞群是共有的,哪些亞群是樣本特有的,哪些亞群數目變化比較大的。如果有做生物學重復還可以看一下重復性效果怎么樣。由于軟件只能一個樣本一個樣本的查看,這時候我們可以把圖片截圖下來放到一起來展示。對于亞群數目的比較,如果自己可以寫代碼用圖形化展示出來肯定是先進的,如果不會寫代碼也可以把亞群對應的數字輸入到 excle 表格里直接進行統計。
從示例圖例我們可以發現兩種切片的生物學重復還是很好的。7、11 號群是 posterior 樣本特有的,6、8、9 號群是 anterior 樣本特有的。后面我們也可以重點關注這些群到底屬于什么細胞類型。
三、細胞類型注釋
空間轉錄組測序技術不是真正的單細胞水平,每個 spot 會捕獲 5 -10 個細胞,這樣每個 spot 里實際上可能存在幾種不同類型的細胞。但是對于大部分組織細胞來說同一區域周圍更可能分布著相同類型的細胞,這樣對應的 spot 孔里面更容易捕獲到同一種細胞(或者 splot 里的大部分細胞屬于同一類型)。所以對空間轉錄組測序數據進行細胞類型注釋有利判斷不同組織細胞類型的大致空間分布信息。對于免疫細胞要研究它的空間分布往往是比較困難的,它常常會散布整個組織上,而且聚類的時候也比較難得到集中的免疫細胞群。
做亞群細胞類型注釋的方法一般有兩種,一種是用專門的軟件去做注釋(如 singleR),還有一種就是根據已知 maker 基因的表達來對亞群進行注釋判斷。這里我們采用第二種方法。
細胞類型 marker 基因來源
細胞類型 marker 基因的可以是自己從文獻中收集的,也可是從一些單細胞 marker 基因數據庫里找來的。這里我們主要來介紹怎么使用 CellMarker 數據庫里的細胞 marker 基因來做注釋。CellMarker 數據庫收錄了 158 種組織 / 亞組織的 467 種人細胞類型,81 種組織 / 亞組織的 389 種鼠細胞類型。數據主要來源于文獻和數據庫,包括單細胞測序數據和生物實驗數據。
網址:http://biocc.hrbmu.edu.cn/CellMarker/
數據庫主界面:
我們的示例數據是小鼠的,這里我們點擊小鼠圖標,出現下面界面。
選擇組織類型:這里我們選小鼠腦,鼠標點擊腦的圖標會出來對應的細胞類型,一共 22 種細胞。
然后點擊某個細胞類型會進入該細胞類型 marker 基因的界面,例如點擊星形膠質細胞,出現 Astrocyte 細胞的 marker 基因詞云圖。
字體越大表示標志物生物學證據越多,右邊有標志物生物學證據數目的排序。一般我們選擇 3 - 5 個排名靠前的 marker 基因來注釋細胞就好了,太多反而容易造成干擾。這里我們選擇前 3 個基因 Gfap、Aldh1l1、Atp1b2 來進行星形膠質細胞的注釋。
Loupe Browser 展示 marker 基因
按照前面的操作說明,右邊上方選擇 Gene/Feature Eexression,然后下面空白框中輸入需要查看的基因。為了方便查看基因在每個亞群里的表達可以使用 Loupe Browser 的網格分割的展示方式。
我們可以把幾個基因的結果截圖下來合并到一起來分析。有時候藍色看起來表達差異不明顯,也可以點擊軟件右下角的顏色工具替換色系。
GFAP
Aldh1l1
Atp1b2
看到這 3 個基因的表達分布圖,基因之間的表達分布并不是那么一致,尤其是第 3 個基因都看不出哪個亞群高哪個亞群低。這種情況在空轉數據或單細胞數據中是經常會出現的。這時候我們一般優先參考排序靠前的也就是更經典的 marker 基因的結果。GFAP 是星形膠質細胞經典的 marker,從它表達分布來看 2 號和 13 群的表達更高一點,尤其是 13 號群。從第二個 marker 基因 Aldh1l1 的表達來看 13 號群也相對更高一點。所以我們先暫定這 13 號群為 Astrocyte 細胞群。
細胞類型輔助判斷方法
有時候用上面的方法我們還不能完全確認某個亞群的細胞類型,這時候我們可以借助第二種方法進一步判斷,就是利用自己數據亞群的 marker 基因來分析。這里我們首先把 13 號群的 marker 基因表格導出來,前面已經講述了導出亞群 marker 基因的方法。
步驟一:看亞群 marker 基因的交集
這里我們發現 GFAP 確實是 13 號亞群的特異的 marker 基因,且平均表達值和 log2FC 還挺大的。
步驟二:看亞群 marker 基因富集到的功能
這里利用 KOBAS 3.0 進行富集分析,這個軟件使用起來很簡單,幾乎看一眼就會,而且它 3.0 版本 2019 年進行了更新,里面收錄的數據庫也比較全比較新。
網站:http://kobas.cbi.pku.edu.cn/kobas3/genelist/
選擇物種(這里選擇小鼠),把 marker 基因 gene symbol 復制粘貼進去。
選擇用來富集的庫,這里我們選擇 GO 功能可能更有利于細胞類型的判斷。
點擊 run 提交,等待幾分鐘出現下面界面:
點擊 download 下載結果文件,結果表格如下:
我們通過文獻或資料先找到 Astrocyte 細胞細胞的主要功能,然后再看富集結果中是否正好富集到這些功能,這樣可以幫助我們進一步確認亞群的注釋結果是否正確。
修改亞群名稱
確認好亞群的細胞類型之后,我們就可以在 Loupe Browser 上直接修改 lable 了。
該類型的細胞分布展示
當我們確定了亞群屬于什么細胞之后,接著可以來查看這一細胞類型在組織圖片上的分布了。從這上面也許我們也能找到一些有價值的信息。
這里我們發現星形膠質細胞的分布其實還蠻有意思的。
四、細胞亞群在不同分組中的差異分析
當我們找到自己關注的細胞類型或亞群之后,下一步就可以去分析這種細胞類型(或亞群)在不同組織處理或是不同病例狀態下的基因差異和功能差異??梢允菢颖局g比較,也可以是樣本分組之后的比較。比如說比較腫瘤原發灶和轉移灶上皮細胞基因表達的差異。這里我們就用分析前矢狀面(Sagittal-Anterior)和后矢狀面(Sagittal-Posterior)亞群的差異來展示一下方法。
進行差異分析之前我們需要先手動制作分類文件,因為 LoupeBrowser 需要根據選擇的分組來進行差異分析。先導出亞群分類表格,接著導出細胞樣本對應表格,再將兩個表格進行合并來設置分類。后將做好的分類文件重新導入 Loupe Browser 中。
制作分組文件表格
這里我們比較 13 號亞群 Astrocyte 細胞作為示例來展示怎么分析差異。新做好的分組文件如下,把 13 號群的細胞分成了 Sagittal-Anterior_Astrocyte 和 Sagittal-Posterior_Astrocyte 兩組。注意文件存為 csv 格式。
分析差異
接著把分組文件導入到 Loupe Browser 中,利用 Loupe Browser 右下角的計算機工具計算兩組的差異,分析 Astrocyte 細胞在兩組之間的差異基因。
注意:因為我們只是想分析這兩組之間的差異,所以右下角的 SignificantFeature Comparison 選擇 Locally Distinguishing,否則會計算出來這兩個分組相對于所有細胞之間的差異基因。
功能富集
后我們可以將前面得到的差異基因用 KOBAS 3.0 進行富集分析,分析 Astrocyte 細胞在兩組之間的功能差異。
五、結合組織區域分布對數據進行挖掘
大部分組織其實是有其特定的區域劃分的,比如說大腦里有皮層、丘腦、海馬、脈絡叢等多個區域。將組織的區域劃分和亞群(或細胞類型)的分布結合起來還是能發現很多有價值的信息的。
組織分區
可以根據這些區域特異表達的 maker 基因的分布來判斷每個區域在組織切片上的位置。
皮層 marker 基因 STX1A 的表達分布:
丘腦 marker 基因 PRKCD 的表達分布:
海馬 marker 基因 HPCA 的表達分布:
脈絡叢 marker 基因 TTR 的表達分布:
不同區域的亞群分布
找到了對應的區域之后,下一步就可以研究每個區域主要有哪些亞群,包括哪些細胞類型,不同區域之間細胞類型之間的差異,不同區域之間功能的差異。
將這個數據的區域分布圖和亞群分布圖結合起來看的時候其實能發現一些挺有意思的現象。1、4、15 號群基本上都分布在皮層,17 號群對應丘腦,脈絡叢對應 20 號群。
選中 1、4、15 號群
選中 17 號群
選中 20 號群
這里如果有多個樣本分組的話(病理狀態、疾病分期等等),則可以統計在不同分組下每二個區域亞群的分布情況,比如說皮層區在正常狀態下 1 號亞群起主要作用,在疾病狀態下 4 號亞群起主要作用。
Marker 基因和功能研究
除了前面說的分析亞群的分布情況,我們還可以分析亞群或整個區域的功能變化。比如說分析脈絡叢對應的 20 亞群在正常狀態和疾病狀態下特異表達的 maker 基因以及功能的變化。具體的操作方法跟前面分組差異分析相同,這里不再演示操作步驟。
六、結合病理學特征對數據進行挖掘
空間轉錄組測序技術正真的精髓不是研究細胞亞群的分布,而在于將它在空間位置上體現的異質性跟組織病理學特征的分布進行結合,挖掘在不同病理學特征下轉錄組學的差異。這對于研究疾病病變的機制、幫助臨床實現更好的患者分子分型、以及空間位置 Biomarker 的挖掘方面都是非常有價值的。
比如說我們的組織切片上同時分布著不同嚴重程度(或不同類型)的病灶區,我們可以手動把這些區域圈出來進行轉錄組層面的比較,找出不同病灶區的特異性 marker,分析疾病在一步步發展進程中生物學功能的變化,甚至可以思考一下是否能找出一些關鍵性因子來阻斷疾病的進展。
當然也可以結合前面細胞類型注釋結果,分析組織切片不同病理學特征下某一類細胞的功能學的差異,前提條件是這類細胞在組織上的分布是比較集中的,可以清晰的從圖像上找出來的。
因為我們的示例數據沒有病例學信息,這里我們隨意選擇兩個區域進行具體操作演示。首先利用上面中間的套索工具選擇不同病理學特征對應的區域進行命名分組,然后利用坐下角計算器工具計算每組特異性的 marker 基因。
導出差異基因接著用 KOBAS 3.0 進行富集分析,分析這些基因主要富集到哪些功能上。
得到了差異基因和功能富集的表格,接下來就需要自己認真的去里面挖掘有價值的信息了。
伯豪生物提供從樣本采集至生信全范圍覆蓋的空間轉錄組測序技術服務,2020 年空間轉錄組測序技術剛剛興起之時,空間轉錄組測序技術逐漸進入科研工作者視野,特別是臨床腫瘤、細胞免疫等領域的應用,未來伯豪生物將繼續為廣大科研概及臨床工作者提供高效優質的空間轉錄組測序技術服務。
更多伯豪生物人工服務: