Corset輕松搞定無參轉錄組差異基因

2017-03-24    編輯:諾禾致源
Corset特點

無參考基因組的轉錄組項目分析中,常用方法是利用Trinity軟件進行de novo 組裝拼接,經過“繭-蛹-蝶”三個步驟,獲得轉錄本序列,這些轉錄本序列作為后續分析的參考序列。取每條基因中最長的轉錄本作為unigene,以此進行后續的注釋、定量、差異表達分析。再使用獲得的差異表達基因,進行GO、KEGG等富集分析,就可以獲知與表型相關的信號通路及基因了。但是僅用最長的一條轉錄本,不能代表全部的isoform,也不能反映出不同樣品間isoform的表達變化。unigene的方法甚至會漏掉一些差異表達的isoform, Corset[1]245棋牌可以解決這個問題(圖1)。

245棋牌圖1 Corset原始文獻

Corset的優勢

245棋牌以圖3為例,ATP5J和GABPA兩個基因有一段重疊的部分。當使用無參拼接時,會得到8條轉錄本,其中3條最長的轉錄本為拼接引起的假陽性轉錄本(如cluster b中的轉錄本)。若使用unigene的方法,根據unigene最長轉錄本原則,會選取假陽性轉錄本進行后續分析,這并不準確。而使用Corset聚合“Gene”的方法,可以將這些真實的轉錄本分離出來(如cluster a和cluster d)(圖3)。

圖3 Corset優勢實例

此外Corset在差異表達分析中也有亮點。表1是以有參考基因組數據為標準,將de novo 拼接數據與該標準進行相關性分析[1],結果越接近1,則數據越接近基于參考基因組的結果(即真實結果)。通過比較de novo 拼接的三種處理,No Clustering為全部轉錄本數據,unigene為最長的轉錄本數據,“Gene”為用Corset聚合轉錄本數據。結果顯示“Gene”提供了更準確的差異表達分析結果,尤其是在雞[2]、人[3]等轉錄組復雜的物種,而對最小可變剪切酵母[4]245棋牌影響較小,表明”Gene”的方法對isoform多的物種更具優勢(表1)。

表1 差異表達基因log2(Foldchange)的皮爾遜相關性[1]

Corset的原理

Corset是Trinity官方推薦的軟件。其在Trinity拼接基礎上,根據轉錄本間Shared Reads將轉錄本聚合為許多cluster,再結合不同樣本間的轉錄本表達水平及H-Cluster算法,將樣本間有表達差異的轉錄本從原cluster分離,建立新的cluster,最終每個cluster被定義為“Gene”。該方法聚合冗余轉錄本,并提高差異表達基因的檢出率(圖2)。

245棋牌圖2 Corset流程圖

Corset的應用

245棋牌Corset已經被用于解決高等動物如轉錄組復雜生物,海洋生物如三刺魚、紅螯蝦,昆蟲如白蛉等無參物種的科學研究問題(表2)。

245棋牌表2 Corset軟件的應用情況

參考文獻

245棋牌[1] Davidson N M, Oshlack A. Corset: enabling differential gene expression analysis for de novo assembled transcriptomes[J]. Genome Biology, 2014, 15(7):1-14.

[2] Ayers K L, Davidson N M, Demiyah D, et al. RNA sequencing reveals sexually dimorphic gene expression before gonadal differentiation in chicken and allows comprehensive annotation of the W-chromosome[J]. Genome Biology, 2013, 14(3):1-17.

[3] Trapnell C, Hendrickson D G, Sauvageau M, et al245棋牌. Differential analysis of gene regulation at transcript resolution with RNA-seq[J]. Nature Biotechnology, 2013, 31(1):46-53.

[4] Nookaew I. A comprehensive comparison of RNA-Seq-based transcriptome analysis from reads to differential gene expression and cross-comparison with microarrays: a case study in Saccharomyces cerevisiae[J]. Nucleic Acids Research, 2012, 40(20):10084–10097.

[5] Hébert F O, Grambauer S, Barber I, et al245棋牌. Transcriptome sequences spanning key developmental states as a resource for the study of the cestode Schistocephalus solidus, a threespine stickleback parasite[J]. Gigascience, 2016, 5(1):1-9.

[6] Tan M H, Gan H M, Gan H Y, et al245棋牌. Firstcomprehensive multi-tissue transcriptome of Cherax quadricarinatus (Decapoda:Parastacidae) reveals unexpected diversity of endogenous cellulase[J].Organisms Diversity & Evolution, 2016, 16(1): 185-200.

[7] Petrella V, Aceto S, Musacchia F, et al. De novo, assembly and sex-specific transcriptome profiling in the sand fly Phlebotomus perniciosus, (Diptera, Phlebotominae), a major Old World vector of Leishmania infantum[J]. Bmc Genomics, 2015, 16(1):1-15.