プログラミング言語RとRubyを使って,日常に隠れた様々なデータを掘り起こし,シミュレーションや仮説検定といった方法を用いて解析しようという本書.基本的にはRubyで生データの取得や処理を行い,Rで統計処理や可視化する流れになっている.日本語訳ではデータ解析という少しお固いタイトルだけれども,原題は「Exploring Everyday Things With R and Ruby」であり,扱う内容は身近にある些細なことが多い.例えば,オフィスのトイレが従業員数に対して凄い少ないんだけど本当にこれだけでいいの?といった疑問とか,日頃よく使っているメールを解析してどんな傾向があるか探ってみようといったデータマイニング的なことから,はたまた心臓の鼓動を解析するといった自分ではやろうと思い付かないことまで,対象とする内容は実に多様だ.このラインナップを見て「最近流行りのデータ解析ってもっと凄いことするもんだと思ってた」と思うかもしれないが,本書を開いてみれば,それは実に的を外した意見であることがわかる.データというものは,インターネットのアクセスログやPOSの購買記録だけではない.身近にあるすべてのことはデータであり,記録し収集することで形となり,解析し可視化することで見えてくる事実というものがある.そういった発見をする喜びというものを,本書は教えてくれる.科学は研究者や技術者だけのものではなく,誰もが感じることのできるものである.日常で疑問に思ったことから仮説を立て,データを集めたりシミュレーションをしたりして解き明かすという方法を,本書では実例とともに学ぶことができる.

本書を読むと,とにかく以下の2つのことが大事なのだと実感する.それは

  • ふと疑問に思ったことを自分なりに確かめようとする
  • とにかくデータを貯める

ということだ.思い浮かんだ疑問をそのままにせず,直感的や一見合理的な理由をしっかりと確かめる術を持つということの大切さを改めて意識した.それにはシミュレーションや統計解析が非常に有効である.そして,それを実現するには後にも先にもデータが必要であるということ,日頃から意識して記録するという能動的な行為から,自動的に記録してくれるようなシステムを作りデータを貯めこむという受動的な行為まで,何らかの形で残しておけば後々使う機会があるかもしれないということだ.データが全て残せなければ,数とか量とか何らかの統計値でも良い.電子データなら物理的場所を取らないしいくらでも貯めこむことができる.そういった一手先のデータ収集をしておくことで,よりデータ解析が面白くなる.

最後に実例を一つ.SiriのバックボーンとなっているWolframAlphaなどの開発者で有名なStephen Wolfram氏も,本書のアプローチに似たことをBlogで紹介している.

かなり長期にわたるデータを細かく分析しており,グラフを見て想像を巡らすだけでも非常に面白い.