前回の記事で、データアナリティクスを実際にやるためにR言語を学習し始めたと書きました。
「ヤバい予測学」を読んで「R」を学んだら、データアナリティクスの可能性を肌で感じた | Synapse Diary
引き続き、R言語を触っています。やってみて思ったことは、「実際に触っていると、分析の切り口が思い浮かぶ」「やりながら分析方法が改善されていく」ということです。
最初は、「何となくこういうことを分析したい」というところから始まったのですが、少しずつプログラムを組んでいくと、「ここをこうすれば、具体的な分析結果までいけるのでは?」と思いついたり、作ってる途中で「ここを変えれば、もっと良い分析ができるのでは?」と閃いたりします。
意思決定に影響を与えるデータ分析を行うために
「会社を変える分析の力」では、データサイエンティストに求められる条件は、「どんな分析をするか構想する力」であり、その結果として組織の意思決定に影響を与える必要があると書かれていました。
データ分析が注目されていますが、一番高いハードルが、「結局分析して何の役に立つのか?」という点に応えるための、一連の流れを創りだすことにあります。そのためには、分析ノウハウも当然必要ですが、業務に結びつけるイメージも同時に持つ必要があります。
人のタイプにもよると思いますが、個人的にはやはり分析ツールや方法を実際に知らないと、意思決定に結びつけるまでイメージするのは難しいと思います。そして、R言語を弄ぶことで、漠然と描いていた、データ分析から意思決定までの流れが少しずつ具体的にイメージできることを体感しました。
データ分析には限界がある
また、R言語を触ってみるとデータ分析には当然ながら限界があることもわかります。ある程度、人手でカバーしたり、完璧をもとめず有用な分析結果を取り出すよう、「割り切る」部分も求められるわけです。
そういうことも含めて、データから良い分析結果を取り出すまでのフローを設計することが、データサイ分析の現場では求められます。
今回、文字列の類似度を計算したり、クラスター分析したりしてみましたが、文字列の類似度も完璧に機械化できるわけではなく、人間の感覚とは違います。また、クラスター分析だっていろんな手法があり、自分がイメージするように綺麗にクラスターとして分けてくれるわけではありません。こういう壁にぶつかるとイライラしてきますが、一定の限界を受け入れなければいけないわけです。
それと同時に、クラスター分析にいろんな手法があり、それを改善する方法もいろんな人が研究してるんだなーと感心もしました。奥が深い、統計分析の世界。。。。
まだR言語の書籍買わず、ネットで調べただけですが、フリーツールで、膨大な情報があるというのは、本当にありがたい時代だなって実感します。
Slideshareあたりで参考にした資料を貼っておきます。とりあえずこれらを読めば、いろいろ分析に着手できますよ。