Pythonの練習ということで,Numpyを使って混合ガウス分布のEMアルゴリズムによる最尤推定を実装してみた.そもそもPythonを書いた経験があまり無いうえに,全く知らないNumpyを使って行列演算や確率計算をしようということで,手探りでかなり苦戦してしまったが,何とか形にはなったと思う.ということで,次の勉強に活かすためにもここでコードを振り返ってみる.

注意:以下のコードはテストデータでしか確かめてないので多分どこかバグってる.あと確率値に対数を取ってないので,値が限りなく小さくなってゼロ除算になることがある.

実装

とっかかり

  • まずscipyあたりで多変量正規分布が無いか探す
    • 普通の正規分布scipy.stats.normはあるが多変量は無いっぽい
    • 自分で関数を書く
  • 逆行列とか転置とか書き方が複数あって混乱する
    • 今回はとりあえず動いたらいいので適当に使う
    • np.matrixとnp.arrayが混ざってるの良くないっぽい

EMアルゴリズムの作り始め

  • Numpyの行列の表し方を一通り見る
    • Rっぽい
    • 0 originか1 originかで混乱する
  • 更新するパラメータは基本的に入れ物となる変数を作っておいてそれに代入していく
    • 最初はappendでリストに突っ込もうかと考えたけど,ndarrayとかになる場合もあるので面倒でやめた
  • Numpyの簡潔な書き方がわからない
    • Rのapplyみたいに列指向で計算する方法がわからない
    • 最初はリスト内包使ったりmap,zipつかったりしたけど,行列計算ぽく書けばそれなりに動くことに気付く
    • それでもだめならfor文で直感的に計算する

終わりかけ

  • 共分散行列の更新で意図した結果にならずにだいぶ悩む
    • とりあえず人のを真似て書いてみる
  • 対数尤度の収束規準をどうするかで悩む
    • 今回は適当に更新したときの対数尤度の差を見るようにした
    • 収束度合いの検出を改善するか,単調増加する対数尤度をプロットして適当なところで切るみたいなことをしたほうがいいかも

一通り書き終えて

  • まずはNumpyのスタイルを一通り身につけないといけない
    • Numpyの流儀を学ぶ
    • パッケージや方法が混在しているので,書き方を統一することが必要
  • 実装の途中で数式の添字とかで混乱した
    • EMアルゴリズムの資料としてPRMLともう一つ別のスライドを参考にしたのが原因
    • 実装前にしっかりと頭のなかを整理しとくことが必要
  • 全体的に対数尤度で計算する
    • いわゆるlogsumexpでアンダフローに対処する

参考

Numpy/Scipy資料まとめ

英語

日本語

書籍



本書は,バイオ研究者のためのラボマネージメントのノウハウ集である.主に研究室を運営するPIやその下の教員クラスを対象にしており,実験室での試薬サンプルや実験データ管理,実験ノートの書き方から始まり,論文の投稿や査読,ラボ全体のミーティングやジャーナルクラブの運営,プレリリースなどの研究の情報発信など,研究者の研究以外の活動に関する「雑用」を上手く処理するテクニックが紹介される.たいていの研究者は,これらの細かい事務作業は放り出してただひたすらに自分の研究をしていたいと思うはずだ.しかし,これら「雑用」をしなければ,研究室という組織は機能しない.一見すると研究という仕事をしていないかのように取られがちなこれらの作業は,研究者として生きる上での義務となっている.他の研究者とコミュニケーションを取り,自分の成果を世界に発信することも,自分の研究と同じくらい大事なことだ.これらの「雑用」と呼ぶには相応しくない大事な仕事について,本書では様々な研究者が培ってきたテクニックを十二の智慧として紹介している.

内容は上記の通り幅広く取り扱っているが,個々に割かれているページ数はあまり多くない.新鮮なアイデアを探すのには持ってこいな資料だが,ノウハウ集であって指南書ではないので,読んで即実行して成果が得られるわけではないだろう.自分一人でできるものは簡単だが,他人との共同作業やラボ全体に関するものはなかなか導入が難しいという実情もある.既にある研究室の文化とのすり合わせもあるだろうし,本書を読んでない相手に新しいやり方の意義を伝えて使い方を学んでもらうのはなかなか大変だ.マネージメントの特効薬ではないということをある程度覚悟して読み進めることをお薦めする.ただし,食わず嫌いは良くない.上を説得するのは面倒だから,行動力が無いからと言っては始まらない.何事もまず一度試してみると周囲から何かしら反応があるはずだから,それを元に現実的な方法に修正していくというのが理想だろう.

それにしても,私も常々感じることだが,こういった研究室の運営や文化はなかなか外に出てこない.特に実験系のラボはその色合いが強い.それは,研究室という研究内容が違えば所属する人間も全く違うようなうユニークな環境のせいかもしれないし,人材の流動が少ないせいかもしれない.そもそも,それを知りたいという人が少ないからかもしれない.最近ではメディアでの紹介やブログなどのネット媒体によって情報を発信するトコロも増えてきたが,未だに研究室の実情は独自に醸成されてきた文化を守り抜いていくという閉鎖的な環境にあると思われる.それを良いと思うか悪いと思うかは置いておいて,自分の世界を一歩引いた視点で見ること,そして外の世界を見ることはきっと何かの役に立つ.研究なり研究以外の仕事をもっと上手くやれる方法はあるはずだし,誰か知っているし誰かやっているはずだ.そんな情報をもっと共有したりできる環境があればと思う.それは本書のような本の形でなくても良い.口コミでも学会のセッションでも何かしら広めていける方法はあるはずだ.個人的には,できればインターネットに形として残るブログなどに書いてほしいが,まあやり方はいくらでもあるだろう.


ラボのマネージメントに関して,今回紹介した本書には書かれてなかった点を補足するならば,以下の2冊がお薦めだ.「ラボ・ダイナミクス―理系人間のためのコミュニケーションスキル」は,主にラボ内の人間関係に関する実例が豊富に載っている.セミナーで怒鳴り散らすような相手にどう対処するか,ラボの規則を守ってくれない同僚にどう接するかなど,やっかいな問題の対処法が多数紹介されている.また,学生の指導や教育という観点からは「ベストプロフェッサー (高等教育シリーズ)」がお薦めできる.



慶応義塾大学発のバイオベンチャーHuman Metabolome Technologies社が,メタボロミクスについての実験手法や研究事例などをまとめた包括的なレビューを無料で公開している.

The Proceedings of Metabolomics | Human Metabolome Technologies

目次

第一章 三位一体

第二章 メタボロミクスの概要

第三章 メタボロミクスで用いられる分析手法

第四章 多変量解析を用いたメタボロームデータ解析

第五章 データベース

第六章 メタボロームデータに影響を与える諸要因

第七章 メタボロミクスの応用と実用

第八章 HMTでのメタボロミクス手順

第九章 生体試料

第十章 ケーススタディ

(http://humanmetabolome.com/rd/proceedings#2)

上記の目次を見てもらえれば分かる通り,このレビューではメタボロミクスという分野全体に関して,その歴史やオミクス(-omics)における位置づけを明確にしつつ,実際の実験手法や解析手法,そして様々な分野への適応事例をまとめ上げたものになっている.冒頭の第一章でまず語られる「三位一体」とは,分析化学・コンピュータサイエンス・生物学のことを指し,これらが互いに支えあってメタボロミクスという分野が成り立っていることが述べられる.その3つの側面それぞれについて,分析化学では化合物の測定技術,コンピュータサイエンスではデータ解析技術,生物学ではメタボローム解析の意義や適応例といったように,それぞれメタボロミクスに必要な技術や知識が紹介される.

私自身はメタボロミクスについてほとんど知識がない状態でこのレビューを読んだのだが,専門外の自分にとってもメタボロミクスの分野全体を俯瞰し,それぞれの内容について理解を深めることができたと思う.参考文献もかなり充実しており,関係ありそうな論文を幾つかピックアップしてそれぞれ読み進めているところだ.

もしメタボロミクスに興味があったり研究に関係しそうな人は,ぜひこのレビューを一読することをオススメする.また,同社のウェブサイトでは研究領域別論文リストといった論文のサーベイを公開しているほかに,「メタボロミクスの論文を読もう」といったセミナーも日本各地で開催しているようなので,気になる人はチェックしてみてはどうだろうか.

参考



トップレベルの大学の授業が無料で受けられるウェブサービス「Coursera」で,UCSDのバイオインフォマティクスのコースが10月からスタートする.Courseraでは初の英語で行われるバイオインフォマティクス分野のコースだ.

Bioinformatics Algorithms (Part 1) | Coursera

This course will cover some of the common algorithms underlying the following fundamental topics in bioinformatics: assembling genomes, comparing DNA and protein sequences, finding regulatory motifs, analyzing genome rearrangements, identifying proteins, and many other topics.

https://www.coursera.org/course/bioinformatics

シラバスによると,この授業では主にバイオインフォマティクスで用いられる様々なアルゴリズムについて,実際の生物学的な問題を解きながら知識を深めていくというスタイルのようだ.具体的には,以下のようなトピックが取り上げられている.

  • どこからDNA複製は始まるの?
  • どうやって抗生物質をシーケンスするの?
  • どのようなDNAのパターンが細胞時計として働くの?
  • どうやってゲノムをアセンブルするの?
  • ヒトゲノムでどこが脆弱な部分なの?
  • どうやって複数の配列を比較するの?
  • どうやって病気を引き起こす変異を探しだすの?

一見するとバイオインフォマティクスの分野のトピックだと分かりづらいものも含まれているが,どれもアルゴリズムを使った計算機的なアプローチが可能な興味深い話題ばかりだ.より詳しい内容や授業日程は以下のpdfからみることができる.

授業の形式としては,動画による講義のほかにBioinformatics Algorithms: An Active-Learning Approachというテキストを使って実際に問題を解くという宿題が課される.毎回5から10のプログラムの課題が出題され,授業全体の目安としては週に8から10時間程度の時間が必要になる.

当然ながら授業はすべて英語だ.授業内容もある程度専門的なので,プログラミングの知識の他に基礎的な生物学の知識(英単語!)も求められるだろう.ただ,動画のレクチャーには英語字幕を付けることができるので,リスニング能力に多少不安がある人でも問題ないだろう.テキストも非常に充実しているので,じっくり取り組めばきっと大丈夫なはず…!!

というわけで,初めてのCourseraのオンラインコース,頑張ってみます.


なお,この授業の続きBioinformatics Algorithms (Part 2) は2014年の春に開講予定とのこと.そこでは遺伝子発現解析や進化系統樹の構築,生物情報ネットワークなどについてカバーする予定らしい.



(更新:2013/10/07 14:00)

まとめ

  • オバマ政権の医療保険改革法をめぐって10月からの新年度予算案が成立しなかった場合,その予算案が与野党で合意に至るまでのあいだ,一部政府機関が閉鎖される可能性がある
  • 対象となる一部政府機関にはNIHやNSF,CDC,NASAなどの科学技術に関わる機関が含まれている
  • 国防や治安,医療に関わる一部の活動は限定的に継続されるが,多くの職員は一時帰休/無給休暇(FURLOUGH)になり,様々な活動に影響が出る見込み

日本の科学者が気をつけるべきこと

主要ジャーナルによる報道

Most government scientists were ordered to stay at home, their offices and labs closed or run by a skeleton staff of ‘essential’ workers. The National Institutes of Health (NIH) and the National Science Foundation (NSF) stopped processing grants, some government websites were made inaccessible and many important research programmes were left hanging, potentially putting lives at risk in the case of some disease studies.

http://www.nature.com/news/us-government-shuts-down-1.13865

メディア報道

各政府機関による声明

各政府機関の活動状況のリスト

インターネットコミュニティによる情報

米政府ポータルによるアナウンス

USA.gov: The U.S. Government’s Official Web Portal


生命科学系の各政府機関のウェブサイト

HHS (U.S. Department of Health & Human Services, アメリカ合衆国保健福祉省)

United States Department of Health and Human Services | HHS.gov

  • 総従業員数: 78,198
  • 業務継続者数: 37,686
  • 一時帰休者数: 40,512

Due to the lapse in government funding, only web sites supporting excepted functions will be updated unless otherwise funded. As a result, the information on this website may not be up to date, the transactions submitted via the website may not be processed, and the agency may not be able to respond to inquiries until appropriations are enacted.

Updates regarding government operating status and resumption of normal operations can be found at http://www.usa.gov.

http://www.hhs.gov/


CDC (Centers for Disease Control and Prevention, アメリカ疾病管理予防センター)

CDC Emergency Preparedness & Response Site

Due to the lapse in government funding, only web sites supporting excepted functions will be updated unless otherwise funded. As a result, the information on this website may not be up to date, the transactions submitted via the website may not be processed, and the agency may not be able to respond to inquiries until appropriations are enacted.

Updates regarding government operating status and resumption of normal operations can be found at http://www.usa.gov.

http://emergency.cdc.gov/


NIH (National Institute of Health, 国立衛生研究所)

National Institutes of Health (NIH)

  • 総従業員数: 18,646
  • 業務継続者数: 4,948
  • 一時帰休者数: 13,698

Due to the lapse in government funding, the information on this web site may not be up to date, transactions submitted via the web site may not be processed, and the agency may not be able to respond to inquiries until appropriations are enacted.

Updates regarding government operating status and resumption of normal operations can be found at USA.gov.

http://nih.gov/


NCBI (National Center for Biotechnology Information, 国立生物工学情報センター)

National Center for Biotechnology Information

Due to the lapse in government funding, the information on this web site may not be up to date, transactions submitted via the web site may not be processed, and the agency may not be able to respond to inquiries until appropriations are enacted.

Updates regarding government operating status and resumption of normal operations can be found at http://www.usa.gov.

http://www.ncbi.nlm.nih.gov/


PubMed

Home - PubMed - NCBI

PubMed has been designated to be maintained with minimal staff during the lapse in government funding. The information on this website will be kept as up to date as possible, and the agency will attempt to respond to urgent operational inquiries during this period.

Updates regarding government operating status and resumption of normal operations can be found at http://www.usa.gov.

http://www.ncbi.nlm.nih.gov/pubmed

  • PubMedは最低限のスタッフで継続
  • アメリカのPubMedが使用できなくなった場合には,Europe PubMed Centralにおいて同等のサービスを利用することができる

NSF (National Science Foundation, アメリカ国立科学財団)

nsf.gov - US National Science Foundation (NSF)

  • 総従業員数: 2,000
  • 業務継続者数: 300
  • 一時帰休者数: 1,700

Due to the lapse in government funding, National Science Foundation websites and business applications, including NSF.gov, FastLane, and Research.gov will be unavailable until further notice. We sincerely regret this inconvenience.

Updates regarding government operating status and resumption of normal operations can be found at www.opm.gov.

http://www.nsf.gov/outage.html


NASA (National Aeronautics and Space Administration, アメリカ航空宇宙局)

現在http://www.nasa.gov/にアクセスするとUSA.gov: The U.S. Government’s Official Web Portalに飛ばされる.

  • 総従業員数: 18,250
  • 業務継続者数: 367
  • 一時帰休者数: 17,883

USDA (U.S. Department of Agriculture, アメリカ合衆国農務省)

United States Department of Agriculture - Home

Due to the lapse in federal government funding, this website is not available.

After funding has been restored, please allow some time for this website to

become available again.

http://www.usda.gov/fundinglapse.htm


DOC (U.S. Department of Commerce, アメリカ合衆国商務省)

Department of Commerce

  • 総従業員数: 46,420
  • 業務継続者数: 6,186
  • 一時帰休者数: 40,234

  • 初回アクセス時のみ以下のような注意が表示される.

The Federal Government is currently shut down. This website was last updated on October 1, 2013 and will not be updated until it reopens; as such, information on it may not be up to date. Transactions submitted via this website might not be processed and we will not be able to respond to inquiries until after appropriations are enacted.

http://www.commerce.gov/


NOAA (National Oceanic and Atmospheric Administration, アメリカ海洋大気庁)

NOAA - National Oceanic and Atmospheric Administration

  • U.S. Department of Commerceの一部

Due to the Federal government shutdown, NOAA.gov and most associated web sites are unavailable.

Only web sites necessary to protect lives and property will be maintained.

See Weather.gov for critical weather information or contact USA.gov for more information about the shutdown.

http://governmentshutdown.noaa.gov/