電話:
021-67610176傳真:
來自德克薩斯大學(xué)西南醫(yī)學(xué)中心,QBRC、BICF中心主任謝陽教授實(shí)驗(yàn)室在QB期刊上發(fā)表關(guān)于分析MeRIP-Seq (methylated RNA immunoprecipitation sequencing)數(shù)據(jù)的新方法(A Bayesian hierarchical model for analyzing methylated RNA immunoprecipitation sequencing data)。
在《A Bayesian hierarchical model for analyzing methylated RNA immunoprecipitation sequencing data》這篇文章中,我們提出用一種貝葉斯統(tǒng)計(jì)模型,即貝葉斯層次模型BaySeqPeak,用于分析MeRIP-Seq數(shù)據(jù),從而幫助研究人員發(fā)現(xiàn)轉(zhuǎn)錄組中的甲基化位點(diǎn)信號(hào)[1]。
RNA甲基化數(shù)據(jù)分析現(xiàn)狀
DNA與組蛋白的表觀遺傳修飾在調(diào)控基因表達(dá)上的重要影響已為科學(xué)界所廣泛熟知。同DNA一樣,作為生物遺傳信息傳遞中的重要一環(huán),RNA分子也廣泛存在著化學(xué)修飾。目前,科學(xué)家已經(jīng)鑒定確認(rèn)了超過100種的RNA化學(xué)修飾方式,其中以m6A(N6-methyladenosine,6-甲基腺嘌呤,化學(xué)結(jié)構(gòu)見圖1)為常見[2]。
圖1 m6A甲基化修飾過程
m6A甲基化修飾是一種由多種蛋白參與的動(dòng)態(tài)可逆的修飾方式。它的生成主要是由甲基轉(zhuǎn)移酶復(fù)合體介導(dǎo),其中包含METTL3,METTL14和WTAP;而擦除甲基化修飾基團(tuán)的過程則由去甲基化酶FTO和ALKBH5負(fù)責(zé)。此外,多種蛋白,如YTHDF1和YTHDF3都可識(shí)別m6A信號(hào)位點(diǎn),并通過結(jié)合下游效應(yīng)蛋白的方式傳遞甲基化信號(hào)。目前已經(jīng)發(fā)現(xiàn),m6A在調(diào)控基因表達(dá)、剪接、RNA 編輯、RNA 穩(wěn)定性和控制mRNA壽命和降解等多方面都存在重要的影響[3]。
雖然RNA甲基化在上世紀(jì)七十年代就已經(jīng)被發(fā)現(xiàn)證實(shí),但長期以來由于技術(shù)局限,相關(guān)的修飾機(jī)理、調(diào)控手段以及生物學(xué)意義一直未能闡明?,F(xiàn)在,MeRIP-Seq (methylated RNA immunoprecipitation sequencing)技術(shù)的出現(xiàn)[4,5](圖2),使得通過高通量手段在全轉(zhuǎn)錄組(transcriptome)水平上研究m6A甲基化修飾變?yōu)榭赡堋?br />
圖2 MeRIP-Seq技術(shù)流程圖
通行的分析MeRIP-Seq數(shù)據(jù)的思路是,利用一個(gè)特定長度的(通常為100~200nt長)窗口從前至后掃描整條染色體,并記錄每個(gè)樣本落入每個(gè)窗口中的RNA短序列數(shù)目(read count)。通常,實(shí)驗(yàn)條件下(IP)樣本的RNA短序列應(yīng)大致分布在甲基化位點(diǎn)附近,而對照條件下(INPUT)則和正常的每個(gè)基因的表達(dá)值正相關(guān)(沒有甲基化影響)。這一數(shù)據(jù)特點(diǎn)使得傳統(tǒng)分析DNA甲基化的工具無法很好地勝任RNA甲基化數(shù)據(jù)的分析??偠灾?,轉(zhuǎn)化為統(tǒng)計(jì)語言就是,我們需要尋找那些在實(shí)驗(yàn)條件下序列數(shù)目顯著高于對照條件下序列數(shù)目的窗口(甲基化位點(diǎn)),并相應(yīng)地給予顯著性統(tǒng)計(jì)值(p值或假陽性概率)。
BaySeqPeak模型分析RNA甲基化數(shù)據(jù)的優(yōu)勢
我們建立的BaySeqPeak模型則主要從MeRIP-Seq數(shù)據(jù)的重復(fù)樣本數(shù)少,樣本數(shù)據(jù)空間上前后相關(guān),以及存在大量零數(shù)據(jù)的特點(diǎn)出發(fā),利用以下三種不同的策略解決了這些難題:
1)采用零膨脹的負(fù)二項(xiàng)分布擬合單樣本的序列計(jì)數(shù),以防止大量零數(shù)據(jù)和過度離散破壞模型穩(wěn)定性;
2)采用隱馬爾可夫模型模擬單樣本空間上的前后相關(guān)性;
3)利用貝葉斯統(tǒng)計(jì)的思路,使得模型在低樣本數(shù)的條件下依然維持足夠的準(zhǔn)確度。
在模擬數(shù)據(jù)中,BaySeqPeak能很好地預(yù)測了實(shí)驗(yàn)人員預(yù)先設(shè)定的甲基化位點(diǎn),而比較的exomePeak和MeTPeak模型則匯報(bào)了較多的假陽性和假陰性位點(diǎn)(圖3)。
圖3 模擬數(shù)據(jù)中真實(shí)的甲基化位點(diǎn)與各模型預(yù)測的甲基化位點(diǎn)(紅色)
通過ROC曲線可以發(fā)現(xiàn),不同參數(shù)下的模擬數(shù)據(jù)中,BaySeqPeak模型的預(yù)測準(zhǔn)確性均顯著高于exomePeak和MetPeak模型(圖4)。
圖4 不同參數(shù)條件下,各模型預(yù)測的ROC曲線
在數(shù)值收斂方面,模型在經(jīng)過多次迭代之后,預(yù)測值已穩(wěn)定地收斂到了真實(shí)值附近(圖5)。
圖5 甲基化位點(diǎn)的預(yù)測數(shù)的收斂過程
在真實(shí)數(shù)據(jù)中,BaySeqPeak模型也很好地預(yù)測了甲基化的區(qū)段。不僅如此,相較于exomePeak,BaySeqPeak還詳細(xì)區(qū)分出了一個(gè)甲基化區(qū)域中臨近的幾個(gè)甲基化峰位,顯示了模型的高精度與高分辨率。
圖6 一個(gè)真實(shí)數(shù)據(jù)中預(yù)測的甲基化區(qū)域
RNA甲基化的研究目前仍然處于起步階段,修飾調(diào)控過程的具體細(xì)節(jié),以及這些修飾如何具體地影響細(xì)胞的功能,特別是在疾病條件下,這些化學(xué)修飾是如何發(fā)生變化的仍然存在大量未知。本文提出的統(tǒng)計(jì)方法為有效準(zhǔn)確地分析m6A甲基化數(shù)據(jù)提供了可能,我們期待在未來RNA甲基化的研究中能夠在此模型基礎(chǔ)上再推進(jìn)一步。
參考文獻(xiàn)
Zhang, M., Li, Q., & Xie,Y. (2018). A Bayesian hierarchical model for analyzing methylated RNA immunoprecipitationsequencing data. Quantitative Biology, 6(3), 275-286.
Machnicka, M. A., Milanowska,K., Oglou, O., Purta, E., Kurkowska, M., Olchowik, A., Januszewski, W.,Kalinowski, S., Dunin-Horkawicz, S., Rother, K. M., et al. (2013) MODOMICS: adatabase of RNA modification pathways–2013 update. Nucleic Acids Res., 41,D262–D267
Meyer, K. D., and Jaffrey, S.R. (2014) The dynamic epitranscriptome: N 6-methyladenosine and gene expressioncontrol. Nat. Rev. Mol. Cell Bio., 15, 313–326
Dominissini, D.,Moshitch-Moshkovitz, S., Schwartz, S., Salmon-Divon, M., Ungar, L., Osenberg,S., Cesarkas, K., Jacob-Hirsch, J., Amariglio, N., Kupiec, M., et al. (2012)Topology of the human and mouse m6A RNA methylomes revealed by m6A-seq. Nature485, 201–206.
Meyer, K. D., Saletore, Y.,Zumbo, P., Elemento, O., Mason, C. E. and Jaffrey, S. R. (2012) Comprehensiveanalysis of mRNA methylation reveals enrichment in 3′ UTRs and near stopcodons. 1517 Cell, 149, 1635–1646.