この「RNA-Seqの数理」シリーズでは,次世代シーケンサを用いたRNA-Seqにおける発現量推定の数理モデルを理解することを目的とする.

副題にある「生成モデル」とは,観測データの生成過程を確率的にモデル化し,データが与えられたときの事後確率を用いて分類したいクラスや予測したい値を推定する方法のことを指す.今回のRNA-Seqにおける生成モデルでは,次世代シーケンサで読み取られた配列が,どのようにして細胞内のトランスクリプトームから実験によって読み取られて観測されたかという一連の流れを,生成モデルとして表現する.そして確率的なもっともらしさやパラメータの推定をおこない,トランスクリプトームの発現量を求める.

このシリーズについて

次世代シーケンサによるRNA-Seqの発現量推定といっても,実験対象は大腸菌レベルから人に至るまでゲノムサイズや遺伝子数は多種多様であり,実験機器も各メーカーごとに独自に改良が加えられてきた.しかしながら,RNA-Seqはトランスクリプトームの配列を超並列に大量に解読するという点で,基本的な原理は生物種やプラットフォームに依存しない.まずはこの共通部分に関して単純なモデルを作成し,そこから個別の生物の特性や実験方法に合わせた複雑なモデルを構築していく.

今回のシリーズは前提条件として,発現量推定の対象とする種をゲノム既知なモデル生物に限定する.つまり,ヒトやマウス,シロイヌナズナ,線虫など,すでにゲノム配列が解読されていて,なおかつ遺伝子の配列や機能がよく研究されている種を対象にするということだ.この仮定をおかないと,そもそもデータ処理の時点でショートリードのマッピングができなかったり,モデルが立てられないということになりかねない.とはいうものの,仮定を立てたからといってマッピングの曖昧さは解消されないし,アイソフォームの存在や選択的スプライシングなど複雑な転写メカニズムはいくらでも考えられるので,それらは追々モデルに組み込んでいく.

注意

このシリーズの記事で書かれていることはすべて個人的な勉強記録であって,数理的な解釈や導出の厳密性を保証するものではない.勘違いや間違いなどが多分に含まれている可能性があるので,参考にされる際には十分に注意していただきたい.もし間違いや誤字脱字等見つけられた方は,コメント欄などで指摘していただければ幸い.

このシリーズの目標

このシリーズの目標(そして個人的な勉強の目標)としては,

  • CufflinksやRSEMなどのスタンダードとなっている発現量推定の数理的背景を理解する
  • 発現差異解析(DE)などの複数サンプルにまたがる発現量比較の手法の理解につなげる

ことを考えている.基本的には論文に記載されている内容をベースに進めていくので,論文のmethodの理解が最終的な目標となるだろう.

記事まとめ

参考