「データサイエンティスト養成読本」も3冊目になり、ついに機械学習入門編が発売されました。「人工知能」「機械学習」というキーワードがとても注目されており、早速購入して読んでみました。専門的な内容がわかりやすくまとめられており、「機械学習の技術領域を入門的に知りたい」という位置付けで、非常に良い本です。興味があるけどどれを読んだらよいんだろう、という方は「買い」でしょう。
機械学習の全体像を説明
なぜ今機械学習が注目されているのか、改めてこれまでの歴史がわかりやすく説明されています。今は、Webの拡大によるデータ取得の容易性、コンピューターリソースの進歩によるデータの蓄積・分析の高度化、R言語などのフリーウェアの登場、分析アルゴリズムの共有によるデータ分析ツールの市民性獲得が重なり、これまでは専門家でしかできなかったことが、誰でもできるようになっています。
また、ディープラーニングという技術的ブレークスルーが2012年に生まれたことで、人工知能への到達にまたひとつ現実味が出てきていることが、機械学習が注目を集めている理由です。
機械学習が行うのは「外れ値検知」と「分類」
機械学習って何に使えるの?という答えに対して、本書の中では「外れ値検知」と「分類」と書かれていました。つまり、何かインプットを与えると、それがYesなのかNoなのか、という判別をしてくれるわけです。あるいは、AかBかCのどれに該当するかを教えてくれます。
メールのスパムフィルタや、アマゾン等のリコメンド機能に使われています。こういう原理を知ると、どこに応用できるか発想が広がりますね。
これからのデータ分析ソフトウェアは?
Rはデータ分析に特化したフリーソフトで手軽に使えること、豊富な追加パッケージがあることがメリットなのですが、サーバーサイドの分析にあまり強くなく、そういう面ではPythonの方が強みを発揮してきてるのかな、というのが本書を読んだ印象です。
実際に、本書の中ではこう書かれていました。
ただ、私見にすぎませんが、昨今ではPythonの方が勢いがあるようにも思われます。また、機械学習に慣れてきてフルスクラッチでアルゴリズムを書きたい場合も、PythonはNumpy、Scipyを駆使して高速なアルゴリズムを書けます。一方で、Rは多くの場合、Rだけでは十分な速度が出ず、CやC++等を用いて高速化する必要が出て、学習の負担が大きくなりやすい傾向にあります。
Rは手軽に使えること、比較的環境セットアップや言語習得が容易であるものの、高度なプログラミング処理を行う場合は、Pythonなどで組み上げる必要がある、ということでしょう。
以上です。R活用編に比べると、具体的な説明が少ないですが、それでもいろいろ事例やコードが書かれているので、データ分析を試してみたい、と思わせてくれます。
分析アルゴリズムが共有され、誰でもあまり深く意識しなくても利用できるようになってきているので、データ分析は本当にいろんな人に身近になってきています。興味がある方は、一度試してみてはどうでしょう。R言語に関しては、参考になるネタをこのページにまとめています。
https://synapse-diary.com/?page_id=3783
さーなにやろうかな。