スライドメモ："Differential expression analysis of de novo assembled transcriptomes - Nadia Davidson"

de novoトランスクリプトームアセンブリに関して配列クラスタリングを解説しているスライドがあったので，ちょっと読んで大まかな流れを追ってみた．ただし後半のクラスタリングの具体的な部分は少し割愛しているほか，内容の正確性は保証できないので注意．

de novoトランスクリプトームアセンブリの発現差異解析

Differential expression analysis of de novo assembled transcriptomes - Nadia Davidson from Australian Bioinformatics Network

非モデル生物におけるRNA-Seq

非モデル生物におけるRNA-Seq；トランスクリプトームのde novoアセンブル
- ゲノムアノテーションやゲノム配列が無い状態での解析

トランスクリプトームアセンブラ

ゲノムアセンブリにおいてはカバレッジに合わせてk-merの長さを最適化していたが，トランスクリプトームアセンブリでは遺伝子ごとに発現量が違うためカバレッジに大きな幅がある

解決方法1：ゲノムアセンブラを使って異なるk-merのアセンブル結果を組み合わせる
- Trans-ABySSやOases
解決方法2：トランスクリプトームに特化したアセンブラで単一のk-merでアセンブルする
- Trinity

リード数の増加によるアセンブル配列の増加

横軸がNGSで得られたリード数，縦軸がアセンブルされた配列数を表しており，データ数が増加するにしたがってアセンブルされる配列数も線形に増加する．

スライドでは著者名が間違っているが，ここで引用している図は以下の論文のもの．

Francis, W. R. et al. A comparison across non-model animals suggests an optimal sequencing depth for de novo transcriptome assembly. BMC Genomics 14, 167 (2013).

http://www.biomedcentral.com/1471-2164/14/167

余談だが，この論文によるとデータ数が増加するとアセンブルされた配列数が増えるものの，アセンブルされた配列の平均長やN50は途中でサチることが確認されている．この論文の結論としてはデータ数は20M〜30M付近で十分だよねという感じらしい．

De Bruijn Graphの複雑性

シーケンスエラーやヘテロ接合箇所などの僅かな配列の違いも異なる配列として出力

カバレッジの変動

単一遺伝子内でNGSのショートリードのカバレッジに差があると，複数本の細切れの配列になってしまうことがある

アイソフォーム単位で発現解析するか遺伝子単位で発現解析するか？

アイソフォーム単位
- 扱う配列が多くなるので大変
- 発現量解析のときに複数箇所にマッピングされる配列が生じるので発現量推定が大変
- 全ての転写物に関してアイソフォームがあるわけではない
遺伝子単位
- スプライシングなどを無視することになる
- どうやって複数の転写物を幾つかの遺伝子にまとめるのか？

どうやってアセンブルされた転写物を遺伝子単位にクラスタリングするのか

アセンブルされた転写物のクラスタリングにおいて決定打は無いものの，幾つか方法はある（配列で共通している箇所を見つけてクラスタリングするとか）

クラスタリングする際に使える情報

アセンブルする際に出力されるlocus/componentの情報
CD-HITやBlastclustなどの配列相同性によるクラスタリングツール

クラスタリングにはTP・TN・FP・FNを数えて適合率Precisionや再現率Recallを見る

どうやらTrinityのクラスタリングは良くて，OasesとCD-HIT-ESTの組み合わせは良くないらしい（Trinity’s clusteringはRSEMのこと？）

CD-HIT-ESTは適合率は高いが再現率は低い
- 配列情報しか使用しないので精度が低い
考えられる他の方法
- 発現量が低い領域は重みを軽くしたい
- サンプル間で発現量の違う配列は区別したい
- ペアエンドリードを考慮したい

(クラスタリングの具体的な部分は省略)

どのようにしてリード数から発現量に変換するのか

TrinityやOasesが推奨する方法
- アセンブルされた配列に対してマッピング（複数箇所にマップされてもいい）
- 複数箇所にマップされた配列も考慮して発現量を求めるプログラムを使う(RSEMとか)

実際に行われている方法としてよくあるのは，一番長くアセンブルされた配列に代表させてマッピングして発現量を推定するというもの

まとめ

Q1. なんでそんなにアセンブルされた転写物が出てくるの？
- 既にアノテーションされている転写物よりも多くアセンブルされるから
- de novoトランスクリプトームアセンブリはそもそも難しいから（完全長のアセンブリは目指しているのだけれども）
- インタージェニックやノンコーティングの転写物も多くでてくるから
Q2. アイソフォーム単位か遺伝子単位か
- 遺伝子単位の方がアイソフォーム単位より良さそう
Q3. どうやってアセンブルされた転写物から遺伝子にクラスタリングするか
- Trinityのクラスタリングは良くて，OasesとCD-HIT-ESTの組み合わせは良くない
Q4. どのようにしてリード数から発現量に変換するのか
- 3つの異なる方法で検証したが似た結果を示した
- 正確なクラスタリングによる結果を得るほうが他のパイプラインを使って発現量差異を見るほうがインパクトがある（と主張している）