最近流行りの華々しいデータ解析の現実をつきつけられる1冊.ビッグデータといって騒いでいるお偉いさんは「顧客の行動データを収集して解析することで業務効率化」といった言葉を軽々しく口にするけれども,実際はそんな一言で片付けられるほど容易ではない.現実のデータ解析は泥臭く,手垢にまみれていて,そしていつも試行錯誤の繰り返しだ.手に入るデータがどれも十分な量あって構造化されていて綺麗なことなんてあるわけがない.そんなバッドデータを相手にどう立ち振る舞うかについて,大学で統計学を教えている講師から,データサイエンティスト,経済学者,スタートアップの共同創業者などなど,様々な分野の人間が自身の体験や知識をもとに書いている.それぞれがコンパクトにまとまっていて関連性が無いので,雑誌をペラペラめくる感覚で好きな箇所を読むことができる.

そのなかで個人的に面白かった章を幾つかピックアップして紹介してみる.

3章 機械ではなく人間が使うことを意図したデータ

いわゆるネ申エクセルのような人間が読むことを前提にした非構造化データを,いかにプログラムで読み取るかという話.ここではニュージーランドの学校ごとの成績の統計を取ろうとしているのだけれども,Excelのスプレッドシートにまとめられているうえに,男子校だからという理由で女生徒の情報が入力されていなかったり,男子校なのになぜか女生徒の結果が入っていたり…とデータ取得の苦労が見られる.それでも著者は,コードを書くことが解決法であり,データフォーマットを自在に変換できることこそが重要な能力であると断言する.実際には厳しい道だけれども,まさにその通りだと思う.

8章 血と汗と尿

英国安全衛生研究所に持ち込まれる大量のサンプルの化学的解析を行っていた著者の話.化学者のカルチャーを身をもって体験した話がとても面白く,実験系の人のことを知っていれば非常に共感できる内容になっている.著者の同僚の化学者はその道のプロフェッショナルで,データの測り方に必要な計器のキャリブレーション,実験で出てくるデータのピアレビューといった方法など,化学の世界で独自に発展させてきた技術や経験があるものの,いまだにExcelですべて完結させていたりと,データ解析の面では改良の余地がある.なんとかして構造化データとしてまとめた上で自動化したいんだけど,現実にはデータのタイプや欠損値の扱いなど様々なハードルがある.それでも怠惰という自動化は素晴らしいし,適切なコードを書くことで達成できるというもの.

14章 クラウドコンピューティングの神話

この章はちょっと系統が違っていて,データ解析というよりかはクラウドの現実に焦点が当てられている.著者はMongoDBを開発している10genのエバンジェリスト.内容はストーリー仕立てで,自分のサービスをクラウドで運用しはじめたスタートアップCTOの主人公が,次第に規模が大きくなっていくにつれて様々な障害に直面していくという流れになっている.地道なパフォーマンスチューニングにはじまり,クラウドが落ちてどうしようもなくなったり,小規模だからといって手動で行っていたことが仇となったり,次第にスケールしなくなっていく水平方向のサーバ増強,コストの増加など,非常にリアルな話が次々と出てくる.結局はバズワードに飛びつくのは勝手だが現状を打破して何でも解決してくれる技術なんて存在しないということなんだけれども,将来的に技術が発展してそういう未来になるといいよねという,本来私たちが望んでいる理想で締められているところが良い.

16章 機械学習の専門家の手なづけ方

Kaggleというデータ解析のコンテストに出題側として参加したスタートアップの創業者の話.サービスに合う機械学習アルゴリズムの開発をKaggleを通してアウトソースするのは,一見簡単そうに見えて実は大変で,データセットの作成から評価方法の検討,匿名化,コンテスト運営など,クリアしなければいけない関門は意外に多い.それでもコンテストの結果は満足のいくものだったし,自分たちで正解セットをタグ付けしたり特徴量を考えたりすることによって,結果的に出題者自身が問題を正しく理解できたという側面もあったという.こういったデータ解析分野としての新しいコミュニティやプラットフォームが出てきて企業の問題解決につながるというのは,データ解析に身をおく人間として望む未来だよなぁとしみじみ思う.