ビッグデータで勝つのはどのような企業か?

ビッグデータについていろいろ書いてきましたが、今後の企業の優位性について考えたことを纏めておこうと思います。

 

ビッグデータを取り巻くプレイヤー

ビッグデータに関連する職業として、データサイエンティストなどいろんな人たちが注目されています。シンプルに考えても、

  • データを収集する人
  • データを保持する人
  • データを販売する人

がいそうです。

データを収集する人は、TwitterやFacebookなどプラットフォームを構成し活動履歴を収集するタイプもいますし、センサーなどからデータを収集するメーカーなどもいます。

データを保持する人は、データを収集する人と同じ場合もありますし、複数社からデータを統合して保持する場合もあります。Tポイントなんかが該当するでしょうか。

データを販売する人は、集められたデータを加工し分析したものを売ったりします。

 

一方で、少し古い調査結果ですが、ビッグデータを活用する上での問題点がどこにあるのか、というのが以下の記事で書かれていました。

ビッグデータ活用の取り組みが進んでいない理由として、「具体的に何に活用するかが明確でない(61%)」「投資対効果の説明が難しい(45%)」を課題としてあげている回答が多いことに加え、より具体的な課題として「担当者のスキル不足(45%)」「ビジネスとデータの両視点で検討できる人材の不足(36%)」「担当者の人数不足(32%)」「受け皿となる組織が存在しない(29%)」のように、ビッグデータ活用を推進できる体制が整っていないことが明らかになりました(図5、複数回答)。

約6割の企業がビッグデータの活用を組織的な検討課題と認識 一方、推進体制の未整備が活用の進まない要因に~ビッグデータの利活用に関する企業アンケート結果~ | 野村総合研究所(NRI)

いろいろ書いてありますが、データを収集したり加工することはあまり問題点ではなく、どちらかというと分析アプローチを発見することに難しさがあるようです。

 

価値の源泉は「ノウハウ」から「アイデア」、そして「データ」へ

ビッグデータの正体」では、価値の源泉について以下のように書かれていました。

互いにライバル関係にある複数の自動車メーカーからデータを集め、価値を高めた情報を〝商品〟として提供する。自動車メーカー1社では、そこまでの価値を生み出せない。メーカー1社でデータを集められる車両数はせいぜい数百万。そのデータでも渋滞予測は可能だが、予測精度も低く、網羅的でもない。品質を上げるにはデータ量が必要だ。また、すでにノウハウからアイデアへと価値がシフトしていて、現在はデータへと移行しているからだ。

ビジネスの価値は、相対的に製造技術などのノウハウではなく、デザインや新しいアイデアの方が高まっています。サムスンが高い技術力で戦ってもAppleのブランドに打ち勝つことができない、というのが好例かと思います。

しかし、情報化社会が進み、情報処理技術が高度化して大量のデータを扱えるようになり、さらにセンサーなど社会にあふれている物事をデータとして取得できるようになると、データそのものの価値が上昇します。

ビッグデータの正体」では、今はデータを活用するアイデアを持つ人が注目されているが、最終的にはデータへ移行するだろうと言っています。これはつまり、データを大量に集めようとすると、特定領域で独占状態になるからだと思います。

FacebookやTwitterが注目されるのは、それ以上に大量のソーシャルデータを保有しているサービスがないからです。COOKPADでも、それに勝るようなレシピサイトがないからです。ほぼデータを独占していると言ってよいでしょう。

つまり、ビジネス上有用と思われるデータを保有することが、もっとも競争性を獲得することができる、というのがビッグデータの世界です。

 

 

それにしても、ビッグデータの盛り上がりっぷりは、Googleトレンドをみてもすごいなーと思ってしまいますね。

ビッグデータは「原因」ではなく「関係」を導き出す

ビッグデータの正体」を読みました。この本で注目すべきメッセージとして「因果関係より相関関係の方が重要視されるようになるだろう」という点があります。

 

因果関係というのはAが起こるからBが起こる、という事象を説明できるもので、相関関係というのはAが上がるとBが上がる、あるいはBが上がるとAが上がる、という関係性だけがわかっているものです。このとき、順番や発生原因を説明することはできません。

では、ビッグデータでは因果関係より相関関係が重視されることになるんでしょうか。

 

相関関係は因果関係より特定することが容易

最大の理由は、相関関係は因果関係より特定することが容易だ、という点です。因果関係を特定し証明する、というのはそんなに簡単ではありません。少なくとも、相関関係を特定するよりは時間も手間もかかります。複数要因が働いている場合は、それを切り分けるためのテストを容易したり、実験することを積み重ねる必要があるからです。

それに比べると相関関係は特定が容易に済みます。関係性だけならアルゴリズムで見つけやすいからです。「なんでそうなるのか?」はわかりませんが、「AをやったらBが上がりやすい」というような関係性はわかるわけです。

 

昔読んだ、神田昌典「成功者の告白」に似たような意味合いのことが書いてあって、非常に衝撃的だったのを覚えています。確か、「成功者には法則がある。ただし、なぜそうなるのかは説明できない。しかし、その原因究明を待っていては、同じ誤りを繰り返す人を救うことはできない。まずは法則だけを書こうと思った」という主旨のことが書いてあったのです。(だいたいの記憶で書いてます。)

個人的には因果関係というのはとても大切だと思っていたので、因果関係を特定するのを待っていては前に進めない、というスピード感と実用性を重視するのは自分にとって新鮮な考え方でした。

 

というわけで、相関関係は解明が早く、実用的に耐えられる範囲であれば、例え因果関係がわかっていなくても、非常に価値があるということです。

 

とはいえ、因果関係が不要というわけではありません。因果関係を特定することで、汎用的なルールがわかり応用の範囲がわかりますし。そもそも、人は因果関係を特定したい性質がある、とカーネマンは言っています。それが故に何でも因果関係を結びつけてしまい、時に間違えてしまうわけですが。

 

関連書籍

 

人間は情報をどう処理するか、心理学から分析した大著。

過去の書評:心理と行動の関係が理解できる「ファスト&スロー」 | Synapse Diary

統計学が最強の学問である

これは大当たり。統計学が最強の学問であるかはさておき、統計学がなぜ必要なのか、今注目されているのかがよくわかる。ビッグデータがバズワード化している気がしているけど、ビッグデータと関連している統計学がこれほどわかりやすく説明されているなんて。

統計学の基本的な知識が書かれているのではなく、統計学がどう利用されるものなのか、ということが主眼に置かれている。また、歴史的経緯がいろんな事例を元に説明されているので、それはそれで読んでいて楽しい。

正直、大学のときに統計のあれこれを講義で習ったんだけど、どう使うかもよくわからず、知識はそのまま忘れられていったんだよね。覚えているのは、回帰分析とか最小二乗法とか断片的な程度で。。。。

 

ビッグデータが注目される昨今、データアナリストが不足していると言われているが、それは膨大なデータに対する統計リテラシーを持った人が少ないからだと言われている。統計学では、確率や誤差が混入するため、「確からしい」結果を得ようとすると必要なサンプル数が決まってくる。

つまり、データ取得についても、必要な項目設定(何の値を取得するのか、定性的なデータはダミー変数にするのか)、計測方法の検討(必要なサンプル数、計測期間、ランダムアクセスなど)、分析(回帰分析、ロジスティック回帰分析などなど)と、決めなければならないことはたくさんある。

IT技術の進歩によって、データが取得しやすくなり、膨大なデータ処理が速くなって、これまでと分析の仕方が変わってきてはいる。中小企業にだってビッグデータの波は訪れようとしているのだから。

今年は中小企業もビッグデータとSaaSを有効利用できる

今年は中小企業もビッグデータとSaaSを有効利用できる

だからこそ重要なのは「何の目的で、どう分析するか」になるわけだ。

 

この本では、それが良くわかる。もっと勉強してみたくなる。統計学。

Google Public Data Explorerを試してみた

ちょっとというか、だいぶ前にGoogle Public Data Explorerが、個人で作成したデータを作成できるようになったとあったので、試しに作ってみた。

そもそもGoogle Public Data Explorerとは

Googleが提供している、世界銀行やOECDなどの統計情報を収集しグラフ化するサービス。統計情報を検索できるし、それらの数値をグラフィカルにみることができる。

 

Google Public Data Explorer

 

日本とアメリカと中国のGDPの比較だって、簡単にできる。

f:id:synapse23:20110802203736p:image:w640

World Bank, World Development Indicators – Google Public Data Explorer

自分で統計データをつくってみた

で、このサービス上でデータを作成すれば、自分用の統計データをグラフィカルに表示することができるようになる。Data Publishing Language(DSPL)っていうXMLフォーマットにCSVデータを組合せた言語を使えば、利用できる。

 

Google Public Data Explorer を使ってデータを視覚的に表示しましょう – Google Japan Developer Relations Blog

このたび、Public Data Explorer で皆さんのデータも扱えるようにしました。これにあわせて新しいデータフォーマットである Data Publishing Language(DSPL)を開発しました。このフォーマットは誰でもデータセットをアップロードすることができるオープンなインターフェースです。

 

試しに、岐阜県の人口で作ってみたら、こんな感じでできた。チュートリアル読みながら作ったら、それほど迷わずできたよ。

f:id:synapse23:20110802203737p:image:w640

Population in Gifu – Google Public Data Explorer

こういうデータって、たまに探してみたくなるんだよね。例えば、こういう記事を読んだときに、全体の人口ボリュームからみてどうなんだろう、とか。

 

県内移住者3倍 昨年度373人、愛知からが最多 - 岐阜新聞 Web

2010(平成22)年度に県や市町村の相談窓口を通じて県内外から移住した人は恵那市、揖斐郡揖斐川町など15市町村に373人おり、09年度の8市町126人と比べると移住者数で3倍となったことが1日、県集計で分かった。

 

移住者は3倍になっているけど、県全体の人口が200万人だから、400人弱っていう移住者の数字はどれぐらいインパクトを与えるものなのか、とか。全体傾向として5年間で30万人ぐらい減ってるなーとか。年度が変わるときに大きく減ってるなーとか。グラフィカルに統計データをみると、いろいろ気づくことはあるよね。

あとはインフォグラフィックとかも良いよね。オープンガバメントって、もっと進まないかなあ。

 

【データ】横浜市都筑区のインフォグラフィックはスゴイ! #infografics | Life Is About Creating YourSelf

 

ローソンのデータ分析の取組が面白そうだ

ローソンが現場での仮説・検証には限界があることを提起している。

「現場任せの仮説・検証はもう古い」--ローソン・新浪社長の問題提起 – 情報を活かす組織:ITpro

この話は結構興味深い。

まず、現場での仮説・検証で有名なのは、セブンイレブンだ。現場での仮説・検証を作る体質を浸透させて、高い平均日販を維持している。他のコンビニと比較しても、セブンイレブンだけ突出している。

【63】データから見るコンビニ市場 | BPnetビズカレッジ:トレンド | nikkei BPnet 〈日経BPネット〉

「ストーリーとしての競争戦略」でも触れていたが、これはセブンイレブンのオペレーション力が長年に渡って強化されてきたことが大きいのだろう。

戦略の本質を理解する良書 – 【書評】ストーリーとしての競争戦略 | Synapse Diary

さて、記事で語られているローソンの今後の先読みロジックは、次の通りと思われる。

 

高齢の人口比率が高まる

⇒遠くに買い物に行くよりも、近く(コンビニ)に行く人が増える

⇒過去の行動パターンからの予測が難しくなる

 

そこで、次の大きく2つのアプローチから、予測精度を高めようという試み。

・データ精度を向上させる

・データを増加させてパターン分析する

 

これを両方解決する方法として、会員登録によるユニークユーザ情報の収集を積極的に行っている。興味深いのは、一部のユニークユーザの方法が全体の傾向を示している、という事実だ。

 

 

「カード利用率が20%の店舗では、このお客様の購買動向が全体の90%ぐらいを表している。これを使わない手はない」

 

 

要は、質より量なんだな。

統計分析は今後ホットな分野になる、という話もあるし、精度の高いデータの収集と分析は、今後もっと面白くなりそうだ。

次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる - Publickey