Count Based Model
今回はCount Based Modelと呼ばれる最も基本的な生成モデルを作って発現量推定を定式化し,それがRPKMの計算式と同じ意味を持つことを示してみよう.なお,以降の内容はPachter 2011をベースにしている.
Models for transcript quantification from RNA-Seq. q-bio.GN, (2011).
Count Based Modelにおける仮定
Count based Modelは非常にシンプルな生成モデルだ.単純化のために3つの前提条件を置いて,RNA-Seqをモデル化している.
- NGSのシーケンスはシングルエンド
- ショートリードはただ1箇所だけにマッピングされる
- すべての転写物はただ1つのアイソフォームを持つ
NGSのシーケンスに関しても,トランスクリプトームに関しても,かなり限定して考えていることがわかる.遺伝子の構造が単純な生物において初期のNGS解析をしていると思えばいいだろう.現実的にはこのような状態というのはあり得ないが,転写物からショートリードが生成されるという核の部分は残しつつ単純化をしている.
Count Based Modelの生成過程
生成モデルというものは,まず初めに観測データであるショートリードの生成過程を立てる.今回のCount Based Modelでは
トランスクリプトーム全体からある転写物が選ばれ,ある開始点からショートリードがシーケンスされた
と考える.前回の記事で概要を示したように,RNA-Seqの実験プロトコルは幾つかの複雑な段階を踏んでショートリードをシーケンスしていた.その多くの段階は偶然の連続によって,たまたま転写物がフラグメントとしてある部分から断片化され,たまたまシーケンスされてショートリードとして出力されたとみなすことができる.これらを確率的な事象として扱うことによって,確率的な視点からシーケンスデータが生じた背景にあるRNA-Seqの発現量というものを推定することができる.
さて,長ったらしい文章の前置きはここまでにして,次からは実際に生成過程を数式に落としこんでいく.まず最初にこれまで言葉で説明してきたものを変数や集合として定義をし,事象の起こりやすさを尤度として表現する.概念と数式の対応関係が少し分かりにくいかもしれないが,もし要領が掴めないようならこの後に書いてある具体例の図も参照しつつ,どの変数が何を表しているかを丁寧に追ってほしい.
尤度の定式化
転写物の集合に含まれる転写物は,の有効配列長を持ち,となるようなという相対的な発現量を持つ.RNA-Seqによって得られたショートリードを,その全体をとし,転写物にマッピングされたショートリードの集合をとする.
このとき,ショートリードが転写物から生じる確率は,以下の式で表すことができる.
次に,選ばれた転写物のどの位置からショートリードがシーケンスされるかはランダムに選ばれるため,この確率に有効配列長の逆数を掛けあわせた値が,ショートリードが転写物のある開始点から生成される確率となる.
このとき,観測されたショートリード全体の尤度は,の関数として以下のように表される.
そして,転写物にマッピングされたショートリードの本数を使って,以下のように書き換えられる.
これがCount Based Modelにおける尤度である.
具体例を用いて尤度を導出する
確率の考え方
といっても,これだけでは何のことか分からないので,具体例を使って詳しく解説していこう.単純化のために,以下の図のような3つの転写物と6本のショートリードが次のようにマッピングされたという状態を想定する.
3つの転写物にはそれぞれ発現量を持っている.例えば,は20,は5,は15という具合だ.今回は発現量を確率値として考えるため,のように相対値として表す.これがであり,総和が1になる理由だ.このが今回の生成モデルで最終的に求めたい値である.
さて,ショートリードが転写物から生成される確率は,先ほどの定式化でとしていた.これはある転写物の長さと相対的な発現量を掛けあわせたものと,その全体との比率を求めており,ただの発現量の比率だけでなく転写物の長さも関係しているということを表している.ランダムに一つ選んでシーケンスするということを考えれば,多く転写されていてなおかつ長い転写物のほうが選ばれやすいのは明らかだろう.この式は,そういった意味を数式として厳密に表現しているだけなのだ.
次に,転写物が選ばれた後に,今度はその転写物のどの位置の配列が読まれたかということを考える.これは端っこの方の配列が読まれたのか真ん中の方の配列が読まれたのかといった情報だ.このときに出てくるのが有効配列長Effective lengthと呼ばれる値で,ショートリードの長さをとしたときので表される.これは単純に長さから長さの配列を取ってくる時の場合の数である.今回のモデルでは,シーケンスされる場所は場所に依存せず一様なランダムで決まるとしているので,有効配列長で割り算をしている.
そして,これをすべてのショートリードであるからまですべて掛けあわせることで,今回得られたショートリードが生成される確率というものを求めることができる.
この確率が尤度と呼ばれる.尤度とは「もっともらしさ」という意味だ.上で仮定したようなのショートリードのデータが実際に手元に得られたのだから,それが起こる確率が高かったに違いない,ということを尤度では考えている.
尤度式の展開
では次に,この式をもう少し綺麗にしていこう.まずは2行目で転写物ごとに式をまとめ,3行目ですべての転写物を一つの式で表している.そして最後にを置き換えると,先ほどのまで導出することができる.
そして最後のまとめとして,転写物ごとにマッピングされたショートリードの生成確率というのは同じであることを利用して,でまとめる. つまり,ショートリードの配列は生成確率に依存せずなので,と変形している.こうすることにより,となる.
尤度を最大にするパラメータを解析的に求める
では,数式として表された尤度を最大化する値を求めよう.まずは上の式を少し整理するところから始める.という新たな変数を用意してをに置き換える.
このを用いて,先ほどの尤度式を書き換えると
となる.ここで,尤度の変数がになっていることに注意.最尤推定の目的としては尤度を最大化するを求めたいだけなので,関係ないは消している.
そして,この尤度を最大にするをラグランジュの未定乗数法を用いて求めると,となる.以下の図は,ラグランジュの未定乗数法の導出部分の詳細.
このときのはで表されるので,先ほど求めたを代入して,
と表すことができる.これが,Count Based Modelによって求められた発現量の推定値である.
Count Based Modelの解析解とRPKMとの関係
さて,ようやくRPKMとの関連の話に入ることができる.上で求めたを,次のように式変形する.
この式をよく見ると,後半のは全ての転写物に関して計算しているだけなので,ただの定数である.ということで,特定の転写物の発現量に関係してくる変数だけを抜き出すと,
ここにを掛ければ,生成モデルにおける発現量の推定式はRPKMの式と全く同じ式になることがわかる!!!
ということで,Count Based Modelにおける最尤推定によって推定される発現量と,マッピングされたショートリードの数だけで計算されたRPKMの発現量は,基本的には同じ計算式によって求めることができることがわかった.
まとめ
後半はだいぶ駆け足になってしまったが,Count Based Modelの導出とRPKMとの関係を解説してみた.生成モデルというややこしい数式を立てておいて結局RPKMと同じかよと思うかもしれないが,生成モデルはここから様々な仮定をモデルに組み込むことによって,より複雑かつ現実に則した一般的なモデルへと改良していくことができる.今回のCount Based Modelはその枠組みとして,非常に基本的な考え方である.しかしながら,実際にはこの方法だけを使ってソフトウェアが作られたり論文として出ているわけでもなく,あまり詳しい解説が無い部分だと思われる.今回はLior Pachter氏のレビューをもとに具体例をはさみながらモデルを読み解いていったが,次回以降はもう少しCufflinksで使われているような技術も導入しつつ,より複雑なモデルへと進んでいきたい.