生成モデルの話を始める前に,まずはRNA-Seqの発現量としてよく知られているRPKMという指標からスタートし,生成モデルの話へと繋げていこう.

RNA-Seqの発現量推定の基本

RNA-Seqで得られるデータは,ある長さの配列(ショートリード)とクオリティスコアのセットして表現される.それをリファレンスとなるゲノム配列の中から探しだして,読まれた配列が何の転写物由来かを見つける作業をマッピングという.このマッピングをNGSから出力された数千万本/数億本のショートリードに対して行い,ある遺伝子の部位にどのくらい貼り付いたかをカウントすることで特定の転写物がどれくらい発現していたかを推定するという方法が,RNA-Seqの発現量推定では基本となる.

CCC License Number: 3187871036736

この図はRNA-Seqの実験の流れを模式的に表している.まず対象となるトランスクリプトームであるmRNAを取り出し,断片化やアダプターの付与を経てシーケンスライブラリを作成する.次にNGSによって断片が大量にシーケンスされ,いわゆるATCGからなる文字列で構成されたショートリードが得られる.そしてゲノム配列にマッピングすることによって,RNAの発現量が推定される.この図では,ゲノム配列の各塩基ごとにどれくらいの本数のショートリードが貼り付いたかをカウントすることによって,RNA expression levelを図示している.Nucleotide positionによって特定の領域の発現量が欠損していたり遺伝子の末端で発現量が少なくなっているのには,マッピングの際に生じる幾つかの理由がある.まず,図中のJunction readsで示されている点線の箇所は,イントロンのスプライシングが起きた領域であり,mRNAの配列をゲノム配列にマッピングするために起こる現象である.そのため,イントロンの領域だけ発現量が無いように見える.また,Poly-A tailが配列の一部として混入することでショートリード自体がゲノム配列にマッピングできない場合もあり,末端の発現量が落ちる原因の一つになっている.

では,このようにして求められた値を転写物ごとの発現量として一つの値で表現するには,どうすれば良いのか.ここで,RPKMという考え方が登場する.

RPKMの考え方

RNA-Seqの発現量の値として最初に考えられ今でも広く使われているRPKMという指標は,配列の本数を数えるという方法で転写物ごとの発現量を求めている.RPKMはreads per kilobase of exon per million mapped sequence readsの略称で,マッピングされたショートリードの数をエキソンの長さとシーケンサで読まれた配列の総数で正規化した値である.RPKMの計算方法を式で表すと以下のようになる.

RPKM \  for \  transcript \ t = 10^9 \times\frac{X_t}{l_t N}

ここで,X_t は転写物t にマッピングされたショートリードの本数,l_t は転写物t の長さ(bp),N はマッピングされたショートリードの総数を表している.

さて,このRPKMという発現量の考え方の裏には以下のような仮定がある.

  • 配列数が長い転写物からはショートリードが多く読まれる
  • 全体で読まれるショートリードの数が多いと,マッピングされるショートリードも多くなる

NGSによるRNA-Seqでは,特定の量のサンプルの中に含まれるトランスクリプトームをランダムにシーケンスするため,出てくるデータというのはあくまでも相対的な量となってしまう.そのため,このような仮定を置くことで転写物の発現や実験サンプルなどの違いを補正している.RPKMはある遺伝子の領域内に含まれるショートリードの本数を数え,転写物の長さと全体のデータ数で割って109 を掛けることによって簡単に求められるため,計算のしやすさと直感的な分かりやすさがある.

RPKMと生成モデルとの関係

このように,RPKMはマッピングされた配列の本数を数えるという単純な方法で発現量を推定している.一方で,これから考えていくことになる生成モデルによる発現量推定は,データが観測される事象を確率的に推定することでデータが与えられたときのトランスクリプトームの発現量というものを求める.これらは一見して全く違うもののように見えるのだが,実際には最も単純な生成モデルはRPKMと基本的な考え方が同じになる.つまり,RPKMも単純な生成モデルによる推定方法も,発現量はマッピングされたショートリードの本数と,転写物の長さおよびマッピングされたショートリードの総数の逆数によって決まるということだ.

それを確かめるために,次回はCount Based Modelと呼ばれる生成モデルを作って発現量推定を定式化し,それがRPKMの計算式と同じ意味を持つということを示してみよう.

参考