ビッグデータは「原因」ではなく「関係」を導き出す

ビッグデータの正体」を読みました。この本で注目すべきメッセージとして「因果関係より相関関係の方が重要視されるようになるだろう」という点があります。

 

因果関係というのはAが起こるからBが起こる、という事象を説明できるもので、相関関係というのはAが上がるとBが上がる、あるいはBが上がるとAが上がる、という関係性だけがわかっているものです。このとき、順番や発生原因を説明することはできません。

では、ビッグデータでは因果関係より相関関係が重視されることになるんでしょうか。

 

相関関係は因果関係より特定することが容易

最大の理由は、相関関係は因果関係より特定することが容易だ、という点です。因果関係を特定し証明する、というのはそんなに簡単ではありません。少なくとも、相関関係を特定するよりは時間も手間もかかります。複数要因が働いている場合は、それを切り分けるためのテストを容易したり、実験することを積み重ねる必要があるからです。

それに比べると相関関係は特定が容易に済みます。関係性だけならアルゴリズムで見つけやすいからです。「なんでそうなるのか?」はわかりませんが、「AをやったらBが上がりやすい」というような関係性はわかるわけです。

 

昔読んだ、神田昌典「成功者の告白」に似たような意味合いのことが書いてあって、非常に衝撃的だったのを覚えています。確か、「成功者には法則がある。ただし、なぜそうなるのかは説明できない。しかし、その原因究明を待っていては、同じ誤りを繰り返す人を救うことはできない。まずは法則だけを書こうと思った」という主旨のことが書いてあったのです。(だいたいの記憶で書いてます。)

個人的には因果関係というのはとても大切だと思っていたので、因果関係を特定するのを待っていては前に進めない、というスピード感と実用性を重視するのは自分にとって新鮮な考え方でした。

 

というわけで、相関関係は解明が早く、実用的に耐えられる範囲であれば、例え因果関係がわかっていなくても、非常に価値があるということです。

 

とはいえ、因果関係が不要というわけではありません。因果関係を特定することで、汎用的なルールがわかり応用の範囲がわかりますし。そもそも、人は因果関係を特定したい性質がある、とカーネマンは言っています。それが故に何でも因果関係を結びつけてしまい、時に間違えてしまうわけですが。

 

関連書籍

 

人間は情報をどう処理するか、心理学から分析した大著。

過去の書評:心理と行動の関係が理解できる「ファスト&スロー」 | Synapse Diary