全長轉錄組測序簡介及應用

2017-03-03    編輯:諾禾致源
研究背景

全長轉錄組測序:基于Pacbio RS(單分子實時測序)平臺,由于其超長讀長可獲得mRNA全長序列及完整結構信息。
全長轉錄組功能:首先可克服無參考基因組物種轉錄本拼接較短、信息不完整的難題;其次還可實現有參考基因組物種研究新基因及由于可變剪切等結構變化產生的不同isoform和更精準的表達定量分析。

實驗流程

首先需要富集出mRNA;其次因為測序的模板為DNA,要把mRNA全長反轉為cDNA;DNA電泳后進行分段建庫,之后與DNA建庫流程相同。


圖1 全長轉錄組實驗流程

圖2 基因組文庫構建流程

樣本要求

1. total RNA總量≥10μg。
245棋牌2. RIN≥8;軟體動物基線越平穩越好。

文庫構建及數據量

1. 分段構建文庫(模板片段掉到零模波導孔中對長度有偏好性,片段均一性越好)。
2. 數據量,一般物種建議1-2K(3個SMRT Cell);2-3K(3個SMRT Cell);3-6K(2個 SMRT Cell),總數據量6G(數據量可以根據樣本電泳情況調整,多倍體建議數據量加大保證數據準確性,由于3'UTR+5'UTR長度>1K,所以不構建<1K文庫)。

信息分析內容

有參考基因組物種


1. 數據質控
2. 數據組裝、去冗余
3. 結合二代轉錄組數據校正
4. 與參考基因組比對
5. 可變剪切分析(AS)、新基因預測
6. 融合基因分析、癌基因注釋(限腫瘤樣本)
7. 以全長轉錄本為參考,結合二代數據定量分析
8. 差異分析
9. 富集分析

無參考基因組物種


1. 數據質控
2. 數據組裝、去冗余
3. 結合二代轉錄組數據校正
4. 七大數據庫對全長轉錄本注釋
5. 以全長轉錄本為參考,結合二代數據定量分析
6. 差異分析
7. 富集分析

案例解析

1. 二代聯合三代測序深入解析丹參根全長轉錄本和結構信息[1]

丹參為重要的藥用植物,作者利用二代測序結合三代全長轉錄本測序,獲得了丹參根特別是丹參皮中全部轉錄本信息;發現約有40%的基因發生可變剪切,且部分參與與類異戊二烯和萜類化合物代謝過程。

圖3 可變剪切事件分析

245棋牌圖4 不同測序平臺轉錄組本長度比較

2. 二代聯合三代測序進行甜菜新基因預測[2]

利用全長轉錄本測序,發現98%測序轉錄本包含完整的開放閱讀框(ORF),可協助二代轉錄組測序降低背景噪音提高新基因預測靈敏度和精確度,這篇文獻為新測基因組非模式生物物種基因注釋提供了思路。

245棋牌圖5 真核生物基因預測分析流程

3. 二代聯合三代測序分析人胚胎干細胞新基因和新轉錄本[3]

245棋牌通過三代結合二代測序技術,全長轉錄本檢測到胚胎干細胞中有8084個已注釋的基因和5459個通過統計學模型預測的新的轉錄本,其中1/3的新轉錄本是之前沒有發現的,包括273個新的基因位點。進一步研究發現新發現的基因集只在胚胎干細胞這種多能性細胞中表達,在嬰兒和成人的組織中是不表達的,這個基因集表達水平降低可擾亂多功能基因網絡。本研究證明,基因鑒定即使是研究很成熟的人類細胞和組織也遠遠沒有完成。

圖6 新基因鑒定

參考文獻

[1] Xu Z, Peters RJ, Weirather J, et al245棋牌. Full‐ length transcriptome sequences and splice variants obtained by a combination of sequencing platforms applied to different root tissues of Salvia miltiorrhiza and tanshinone biosynthesis. Plant J. 2015, 82(6): 951-61.

[2] Minoche AE, Dohm JC, Schneider J, et al245棋牌. Exploiting single-molecule transcript sequencing for eukaryotic geneprediction. Genome Biolo. 2015, 16: 184.

[3] Au KF, Sebastiano V, Afshar PT, et al245棋牌. Characterization of the human ESC transcriptome byhybrid sequencing. Proc Natl Acad Sci U S A. 2013,110(50): E4821-30.