「ファクトフルネス」を読んで、これからのデータ社会に必要な心構えを学ぶ

ビル・ゲイツが推薦しているということで、発売前から話題だった「ファクトフルネス」を読みました。

ビル・ゲイツが大学卒業生に贈る「ファクトフルネス」の重要性 | Forbes JAPAN(フォーブス ジャパン)

[amazon_link asins=’4822289605′ template=’Original’ store=’tob-22′ marketplace=’JP’ link_id=’4cc8b20b-e72d-4820-9923-c3efaa09ec17′]

 

IT化やインターネットの台頭でデータが大量に増え、データアナリティクスやデータドリブンなど、データに基づいた意思決定が盛り上がってます。

そんな中、データ=事実を見るときに、その見方によって人は誤った判断をしがちである、というのが本書の問題提起になってます。

ただ、本書を読む前に、ぜひこの著者が話しているTEDの動画を見て欲しいですね。2009年のものたけど、今みても非常に良いです。パワフル。本書の最初に登場するケースの内容が語られています。

The good news of the decade? We’re winning the war against child mortality

 

断層化していく情報

最近noteで全文公開された「さよならインターネット」でも書かれていましたが、広く様々な情報にアクセスできるはずだったインターネットは、最近は傾向が変わり断層化してきており、自分が望む情報を取得するようになっています。

普段暮らしていると、自分でもだいたいアクセスする情報源が偏ってきているのがわかります。そうなると、「自分の外」というものへの意識も弱まって、「自分が見ているものが全て」と錯覚しそうになります。

どういう情報に接しているか、それによって人の考え方や感情も変わっていくでしょう。数年前に実施されて問題になったFacebookでの感情操作実験のように。

Facebookによるユーザー感情操作実験の倫理性 | TechCrunch Japan

接している情報をどう捉えているかで、自分の考え方も変わるってことを知っておくと、情報源を変えたり広げたり、多様な意見を受け入れられるようになるはず。

 

良いニュースが増えるといいな

ニュースというのは、世界を知る上で欠かせないものですが、一方でネガティブなニュースが取り上げられがちです。その方が人は興味を持つからです。

いま起きている悪い出来事に人々の目を絶え間なく惹きつけるのがニュースというものだが、悪い出来事ばかり目にしていれば、誰でも悲観的になる。加えて、思い出や歴史は美化されやすい。だからみんな、1年前にも、5年前にも、 50 年前にも、いま以上に悪い出来事が起きたことを忘れてしまう。 「世界はどんどん悪くなっている」と考えれば不安になり、希望も失いがちになる。でも、それは思い込みにすぎない。

 

検索したら、こういう調査を見つけました。日本のニュースの約47%は「中立」で、約37%が「ネガティブ」、残りが「ポジティブ」とのことです。

日本の国際報道におけるポジティブ・ネガティブの分析(2015年) – GNV

ネットを注意深く見ていると、誰かの偏った情報に、専門家による是正や意見の追加が行われているケースもありますし、そういうケースをみると、マスメディアによるネガティブ報道の多さだけに踊らされることも少なくなっている気がします。

ただ、少なくともメディアにはそういう特性がある、ということを知っておけば、印象操作に踊らされずに考えて行動することにつながるでしょう。

 

本書を読むと、事実に向き合うことの大変さと、それでも失われない前向きな希望を感じることができます。正直読む前はそれほど期待していなかったのですが、様々な事実と向き合う上で、人間の本能とも呼べる壁が存在し、そしてそれを乗り越えるために何をすべきかを丁寧に書かれていて、途中から引き込まれるように読みました。そして「あとがき」でやられました。ぜひ、最後まで読んで欲しい。

これからの時代、情報に踊らされずに判断していくためには欠かせない一冊です。

[amazon_link asins=’4822289605′ template=’Original’ store=’tob-22′ marketplace=’JP’ link_id=’4cc8b20b-e72d-4820-9923-c3efaa09ec17′]

 

【書評】データ分析の力 因果関係に迫る思考法

データを使って何かの見解を導こうと思うとき、どう分析して、因果関係を説明しますか。

「この分析結果から、○○をやると○○が○%向上します」と明確に説明するためには、それを実現するためのデータ分析手法を知っておく必要があります。

本書は、計量経済学の著者が、データ分析の手法を数字を使わず、わかりやすく説明してくれます。

 

読んでいてすごい楽しかったし、データ分析の入門書として理解できてよかったです。

ランダム化比較試験がなぜ優れているのかに始まり、いくつかの手法のメリット・デメリットを、実例を交えて教えてくれます。

ランダム化比較試験 – Wikipedia

 

実際にデータ分析しようと思う人や、データ分析結果を評価する人には必要な知識かなと思います。

データ分析アプローチについて、おぼろげに理解していたのが、自分でよくわかりました。

データ分析手法を知りたいと思ったら、本書はとてもおすすめです。

 

こちらも参考にどうぞ。

【書評】会社を変える分析の力(河本 薫)

Windows環境でBIダッシュボードを構築できるOSS「Metabase」が手軽すぎて良い

データの分析や共有するのにBIツールやダッシュボードが流行っています。小規模なデータであればExcelでもできなくはないです。

Udemyでエクセルでのダッシュボード作成を学習した

ただ、複数人でリアルタイムで共有したり、データの件数が多くなるとExcelでは当然難しくなります。そこでデータベースを構築して、ダッシュボードを作ろうということになるのですが、これまでWindows環境で気軽に使えるものがありませんでした。

しかし、Metabaseの存在を知ったので試してみたところ、すごい手軽で見やすいダッシュボードを作れると思いました。

Metabase

MetabaseをWindowsにインストール

基本的には、こちらの記事に書かれている通りです。

MetabaseをWindowsにインストールする

 

まずJavaがインストールされていることが前提です。環境で必要なのはそれだけ。あとはインストールしましょう。

公式サイトからjarファイルをダウンロードします。あとは以下のコマンドを実行するだけ。

java -jar metabase.jar

本当に簡単。しばらく待って、http://localhost:3000/にアクセスすると、このような画面が表示されます。

案内に従ってセットアップを進めます。とりあえず動きを試したい方は、「データはあとで」を選べばよいでしょう。

これで初期セットアップが終わりです。

 

画面イメージ

セットアップが完了すると、こんな感じの画面が表示されます。何もデータを登録しなくても、テストデータが閲覧できるようになっています。

テストデータの「自動探査」をすると、こんな感じでレポートが表示されます。自動探査の意味が正直まだよくわかっていませんが、データが登録されていると、そのサマリーを自動でレポート化してくれる機能のようです。

これらのグラフや数字をクリックして、ポップアップメニューを選ぶと、データをドリルダウンで表示できます。

 

「質問」でデータを取り出す

BIツールとしてデータを取り出すのは、「質問」という機能で行います。「質問」という言葉が直感的にわかりづらいですが、クエリーのことのようです。

画面の右上にある「質問する」ボタンを押すと、データの取り出し方法を選択できます。

これで、真ん中にある「カスタム」を選びましょう。すると、対象データからどのような条件で取り出すかをクリックだけで選んで指定することができます。SQLは不要です。

得た結果をダウンロードしたり、ダッシュボードに追加することができます。さらに、実行した内容をSQLとして取り出すこともできます。

 

ダッシュボードにグラフなどを追加する

「質問」で取り出したデータ画面から、「ビジュアライゼーション」というところをクリックすると、グラフを選択することができます。

このグラフをダッシュボードに追加することもできます。

ダッシュボードには、グリッドが配置されており、グラフの大きさを自由に設定することができます。

 

まとめ

  • Windows環境で簡単にダッシュボードを構築できる
  • 見た目もスタイリッシュで操作性が良い
  • SQLを使わなくてもデータを取り出せる
  • ドリルダウン分析なども簡単

ということで、無料でここまでできるなら試してみる価値あるんじゃないでしょうか。

BIツールは市場が拡大しており、データの可視化、分析の効率化、高度化は、どの企業も注目を高めています。

国内BIツールの市場規模は?ビッグデータ・アナリティクス予測 | 注目ツールも紹介 – BIツール | 【ボクシル】法人向けSaaSの比較・検索・資料請求サイト

BIツールやダッシュボード構築に興味ある方はどうぞ。

このブログにアンケートを設置して2週間経過してわかったこと

MBAに関する知識を学べる本を、以下のページで紹介しているのですが、

MBA・経営学を独学するためのおすすめ本を集めました

最近、アンケートを設置しました。

お知らせやキャンペーンをポップアップで簡単に表示できる「GetSiteControl」

自分で読んで、良いと思った本をまとめているのですが、実際どれくらい役に立っているのかを知りたくなって設置したアンケートです。

こちらの設置から2週間経過して、傾向がわかってきました。

アンケートとってみてわかったこと

まず、アンケートの回答率は3%ぐらいです。このように、割合がある程度収斂していくのは面白いですね。

もう少し回答率を上げたいところですが、それは今後の課題ということで。

また、回答結果を見ると、目当ての本が見つかった・見つからなかったが、だいたい半数ずつです。

半分は目当ての本が見つかっていることは、思ったより好意的ですが、やはり半数は期待された本が見つからなかったという答えを見ると、もっとニーズに応える内容を考えないとな、と思います。

いろいろ読書の幅も広げつつ、本のラインナップを充実したり、アップデートしていこうかな、と。

あと、未だに自由回答がないので、その点は寂しいというか、ヒントが少なくて残念です。こちらも回答しやすさなど、工夫が必要だと思います。

今後やりたいこと

回答結果はちゃんと統計でチェックしたい

今は回答が同数程度なので意味ないですが、今後回答に差が出てきたら、ちゃんと統計的に有意差があるかチェックしたいですね。

無料のオンラインアンケートツールであるサーベイモンキーでは、そういう機能が備わってるようですが。

統計的有意性

アンケートの回答率を上げていきたい

どうやったら回答率が上がるのか、考えながらテストしていきたいです。項目を見直す、文章を変えてみるなど、いくつか試すことがありそうです。

ほかの調査に使ってみる

今はMBAの本の紹介ページだけに設置していますが、それ以外にもいろんな自分の興味やブログの改善に有用な調査をしていきたいですね。

フィードバックを受けるのは大事

こうやって調査すると、実際のフィードバックを受けることができるので、ありがたいです。

やはり、自分の思い込みだけでは的を外していることも多々ありますし、フィードバックを得ることで、改善を考えるきっかけにもなります。

情報化の時代は、工夫次第で情報を取得しやすくなっていますし、それを活用してサービスを改善しやすい環境にあることを再認識します。

というわけで、このブログを少しずつ改善していこうと思います。

Excel2016で時系列予測が簡単にできるようになりました

以前R言語で、Facebookプロフェットパッケージを使った予測で他の作り方を紹介しました。

超簡単に時系列予測するデータ分析方法は知っておいて損はない

しかし、それよりもっと簡単に予測モデルを作れる方法を知りました。

必要なのは、これだけです。

  • Excel2016
  • 時系列データ

 

今回は日経平均株価のデータを使ってみます。試してみたい方は、こちらから日経平均の月次データを取得してください。2000年からのデータをダウンロードできます。

指数情報 - 日経平均プロフィル

ちなみに、日次データの場合、日付が平日だけになっていて「連続していない」ということで、Excelのデータ予測機能では使えません。ご注意を。

 

予測シート機能を使う

ダウンロードしたら、Excelに時系列データをセットします。取得した日経平均の日次データをExcelに貼り付けるだけです。

Excel2016からは、「データ」タブに「予測シート」という機能が追加されています。

予測シート

予測シートは、Excel上で与えられたデータの予測データを手っ取り早く作成できるものです。

シート上に貼り付けたデータを選択して、「予測シート」をクリックします。

クリックすると、以下のようなダイアログが表示されます。あっさりできましたね。

予測シートダイアログ

下のオプションのところで、信頼区間などを変えることができます。

「作成」ボタンをクリックすると、新しいシートに次のデータが作成されます。

  • 予測の元となった既存のデータ
  • 予測期間のデータ(中央値、信頼下限、信頼上限)
  • 既存データと予測データを組み合わせたグラフ

グラフだけでなく、予測期間のデータも計算されているので、それを使ってあれこれさらに分析することもできます。

 

予測シートで使われるアルゴリズム

ところで、時系列予測には様々なモデルがあります。文献やネット上の記事にもたくさん解説がありますが、ひとつリンク張っておきます。

時系列解析_理論編 | Logics of Blue

では、エクセルの予測シートで用いられる手法は何なのでしょうか。公式の説明ではこう書かれています。

数式を使って予測を作成すると、履歴データ、予測データ、グラフを含む表が返されます。 予測では、既存の時間ベースのデータおよび指数平滑化 (ETS) アルゴリズムの AAA バージョンを使って、将来の値が予測されます。

引用:Windows 版 Excel 2016 で予測を作成する – Excel

 

指数平滑化法ですね。移動平均法の一つであり、モデルとしては比較的簡単な方法の部類になります。

指数平滑法 – ORWiki

年間や数か月の規則性はあまり考慮されない、簡単な予測モデルなのでその点は注意してください。

 

ということで、エクセルでもさっくりと予測モデルを作れます。お手軽にお試し下さい。

 

時系列データの分析モデルを知りたい方は、こちらの本がおすすめです。

[amazon_link asins=’4774163015′ template=’Original’ store=’tob-22′ marketplace=’JP’ link_id=’5dde50b1-d116-4907-9e7a-2075471052d2′]

Excelのテーブル機能でリレーショナルデータベースをつくる

この記事は週末プログラミングの一環です。

Excelでデータ分析が簡単になってきているという話を何度かしています。

Excelでピボットテーブル使う人に全力でPowerQuery(パワークエリ)をお勧めしたい

昔から使われている機能にピボットテーブルがありますが、標準で作成するとデータソースは一つの表でなければいけません。

しかし、データ分析を少し凝ったものにする場合、データソースが一つの表であるのは不便です。マスター情報など、データベースを分けた方が、データ管理という点では便利だからです。

この記事のテーマは、Excelで複数データを紐付けて、リレーショナルデータベースを構築し、ピボットテーブルで集計できるようにすることです。

 

Excelの標準機能で実現できる

Excelには「テーブル」という機能があります。

Excelのテーブル機能の使い方まとめ | あなたのExcelスキルが120%活かせるWebアプリ作成ツール -Forguncy(フォーガンシー) | グレープシティ株式会社

テーブル機能自体は、見栄えがよくなったり、値の指定がしやすくなるなどありますが、個人的に気に入っている機能があります。それがリレーショナル機能です。

 

リレーショナル機能の使い方

これを使って、複数のテーブルを作り、テーブル間のリレーショナルを定義すれば、Excel上でリレーショナルデータベースを作ることができます。

Excel のテーブル間にリレーションシップを作成する – Office サポート

データベース設計の観点からいくと、いくつかのテーブルに正規化で分けたくなるんですよね。そういう場合も、テーブル機能でリレーションを作成すれば、Excelでもちょっとしたリレーショナルデータベースが実現できます。

 

複数テーブルをまたいでピボットテーブルを作る

連結したテーブルは、ピボットテーブルでまとめて集計することができます。逆にそれ以外に利用方法はあるんでしょうか…

挿入からピボットテーブルを選び、「外部データソースを使用」を選択します。

外部データソースを使用

そして、「テーブル」タブで「このブックのデータモデル」を選びます。前述のデータのリレーションを設定していないと、この選択が表示されないので注意してください。

このブックのデータモデル

そうすると、フック内の全てのテーブルを対象にピボットテーブルで扱うことができます。

 

リレーション機能を使った場合の注意事項

ただ、リレーションを作ると、ピボットテーブルの集計フィールドやグループ化が使えなくなります。これはこれでデメリットですね。。。

リレーションシップで出来なくなること(集計フィールドの追加とグループ化) / ピボットテーブル / Excel2013: haku1569 Excel でらくらく データ分析!

 

以上、Excelでリレーショナルデータベースを構築して、ピボットテーブルで集計できるようにする方法でした。

Excelでピボットテーブル使う人に全力でPowerQuery(パワークエリ)をお勧めしたい

この記事は、週末プログラミングの一環です。

データ分析がブーム的に盛り上がっていますが、今でも Excelはビジネス現場での重要なツールですよね。

そして、あまり知られていませんが、マイクロソフトはどんどんExcelを進化させていて、データ分析しやすくしています。PowerBIというBIツールも提供していますしね。

無料でデータ分析するならMicrosoftのPower BI Desktopがおすすめ

 

そして今回紹介したいのは、データ分析を簡単にしてくれるPowerQuery(パワークエリ)というExcelアドイン機能です。これを知っておくと、データの加工処理が劇的に楽になります。

 

データを集計、加工するときの問題

大量にあるデータをクロス集計したりするためには、ピボットテーブルが便利です。

しかし問題は、ピボットテーブルを作る前の段階にあります。元のデータを綺麗に整形しなきゃいけないのです。。。

例えば、元のデータに余分な行が含まれていたり、複数のデータを組み合わせなきゃいけなかったり。データが加工しやすいきれいな状態で存在している、ということの方がレアですから。

データ分析作業の大半は、前処理の労力に占められるとも言われます。こんな本もあるぐらいです。

 

この前処理をいかに効率的に行うかが、データ分析の生産性に大きく左右されるのです。

 

データの取り込みと加工はPowerQueryを使う

そして本題に入りますが、その前処理を簡単にしてくれるのが、Power Queryです。

この機能をExcelで使う場合は、Officeのバージョンに注意してください。Office2016では普通に入ってます。それ以前のバージョンの方はアドインをインストールすると使えるようになります。

手抜きで申し訳ありませんが、導入方法や基本的な使い方はこちらをご覧ください。

ExcelでPower Queryを使い始めるには – Qiita

ExcelでPowerQueryを使ってデータ収集分析 – Qiita

 

PowerQueryで一番良いところはピボット解除ができる

データを集計、加工したい場合、クロス集計データであれば単純集計に変換した方が良いです。その方がデータをいろいろ加工しやすくなりますよね。

クロス集計の例

データ国A国B国 C
人口100200300
面積102030
GDP50100300

単純集計に変換

データ
人口国A100
人口国B200
人口国C300
面積国A10
面積国B20
面積国C30
GDP国A50
GDP国B100
GDP国C300

 

このクロス集計→単純集計への変換が、Excelでは結構面倒です。でも、PowerQueryであれば簡単にできてしまいます。

①データを一度読み込む
②読み込んだデータの対象の列を選択して、「ピボット列の解除」を行う
③列を選択して、右クリックから列を解除

これで以上です。これだけでリスト形式のデータが出来上がりました。最初これを知った時はほんとに感動しましたよ。

 

データに空白がある場合は注意が必要

データが空白の場合は、ピボット解除のときに消えるので注意してください。その場合は、先に空白のデータを適当なデータで埋めて、ビボット解除した後もう一度置換すれば良いです。

Solved: Re: Unpivot removes rows with no/null values – how… – Microsoft Power BI Community

PowerQueryは他にもいいところがたくさんあります。

  • 膨大なデータを軽い動作で取り込めること
  • WebやExcel、CSVなど多様なデータを取り込めること
  • 取り込むデータを絞り込めること
  • 取り込むときにデータを好きなように加工できること
  • 加工したデータの変換方法を覚えておけること

Excelでのデータ処理を効率化したい人には、ぜひ試して欲しいですね。

 

PowerQueryを勉強するには

PowerQueryの情報は日本語だと少ないのですが、英語だとあります。

まとまって勉強するなら、Udemyのこちらのコースがおすすめです。英語ですが、字幕も出るので比較的わかりやすいですよ。英語の勉強も兼ねて、どうでしょう。

Microsoft Excel – Excel Power Query, Power Pivot & DAX

 

本だとこちらですかね。

 

ちなみに、PowerQueryは最新のExcelであれば統合されているので、すぐに使うことができます。

Google Apps Scriptでグラフを操作する

週末プログラミングとしてやったことを書いておきます。

Google Apps ScriptでLINE botを作れたので、GASを勉強中です。

GoogleAppsScriptとLINE Botで自分用の「文字起こし君」を作ってみた

スプレッドシートとGoogle Apps Scriptを組み合わせることができるのも、GASのメリットです。

スプレッドシートで作成したグラフを操作してみます。

グラフを取得して画像を保存する

まず、スプレッドシートにすでにグラフがあるとします。それをGASで取得して、Googleドライブに保存します。

これも先駆者がいますので、真似るだけでした。

Google Apps ScriptでスプレッドシートのグラフをGoogleドライブに保存する

上記のスクリプトを実行するだけで、スプレッドシート上にあるグラフが、問題なく同じフォルダに保存されました。

GASでグラフの軸の範囲を修正する

ただ、GASを通してグラフを取得すると、スプレッドシート上の設定がリセットされて、グラフの軸がデフォルト状態に戻ってしまうようです。

これは困りました。グラフの原点は揃えるのが重要です。原点が変動してしまうと、視覚的に誤解を生んでしまう可能性が出てきます。

ので、こちらを参考に、取得したグラフを再度変更することにしました。

GASで棒、円、折れ線など各種グラフを作成、変更、削除するための基本 (1/2)Excel VBAプログラマーのためのGoogle Apps Script入門(8IT

グラフのオプション指定として、

.setOption(‘vAxis.viewWindow.min’, 0)

とすれば、Y軸をゼロにできます。

Google Spreadsheet, Google Drive, Google Apps Scriptでレポーティングの簡単自動化 – Reports

それで軸の開始をゼロにすることができました。

が、2系列使っている場合、両方の軸がゼロにセットされてしまいました。2系列の場合は、どちらのシリーズであるかを明確に指定する必要があります。こちらの記事に、系列ごとの指定が書いてありました。

こんな感じです。

.setOption(‘vAxes’, {0: {title: ‘€’, format: ‘short’, textStyle: {fontSize: 10}, titleTextStyle: {fontSize : 8}, viewWindow: {min: 79000000}}})

How do I change the number format of the vertical axis? (when using the EmbeddedChartBuilder in Apps script spreadsheet service) – Stack Overflow

これでグラフの修正が完了です。

GASは簡単なスクリプトで作成できること、Googleドライブと連携できること、ウェブサーバーに使えることが良いですね。

超簡単に時系列予測するデータ分析方法は知っておいて損はない

いろいろデータ分析していると、売上予測などしたくなりますよね。で、とても簡単にできる方法があるので、データ分析クラスターは知っておいて損はないんじゃないかと。

Facebookが、比較的簡単に時系列分析ができるオープンソースを公開していて、名前は「Prophet」といいます。

Prophet | Prophet is a forecasting procedure implemented in R and Python. It is fast and provides completely automated forecasts that can be tuned by hand by data scientists and analysts.

PythonとR言語でパッケージが公開されており、誰でも使うことができます。

 

使い方は先程の公式サイトにコマンドが載っていますが、英語ではとっつきにくいという方はこちらのSlideShareのプレゼンテーションが分かりやすいと思います。ここではR用を貼っておきますが、Pythonバージョンもあります。

 

時系列分析の難しさは、いろいろ試して思いました。最初に試したのは、こちらの本を読んでから。

[amazon_link asins=’4774170577′ template=’Original’ store=’tob-22′ marketplace=’JP’ link_id=’e2192e7c-b34b-4a84-8318-8b71d6618aab’]

 

ただ、いろんな時系列モデルを知って、誤差を評価したり云々など、専門知識が求めらるし、モデルを構築するまでちょっと大変で、頑張って計算してみたけど思ったような数字が得られなかったということもありました。

奥が深いだけあって、簡単に予測の数字を作るのが難しいんですよね。

 

でも、Prophetはほんの数行でそれっぽく精度が良い時系列予測をしてくれます。デフォルトで使いながら、オプションで予測モデルをチューニングすることもできます。

専門的な知識をそれほど必要せず、PythonかRをちょっとかじったことがある人なら、時系列予測でそれっぽい数字が出ます。それがこのパッケージの特徴です。

 

ビジネスの現場で思うのは、そりゃ精度が高い予測モデルがあれば越したことはありませんが、ベンチマークとなる「それっぽい」数字があるだけでも、組織の取り組み意識が変わったり、新しい改善策が思い浮かんだりします。

実際これを使って、季節性をグラフでちゃんと捉えたり、翌月の売上金額がどの程度かを議論することができた事例もあります。

Prophetで導き出される数字は、ある程度の時系列データがあれば、それなりに出る印象はあります。これを数字として持っておくと、今後の予測を組織内で議論するきっかけとして使うことができるでしょう。

そして何より大きいのは、ほんの数行で予測データを得られることです。

 

要はこういうツールは使い方次第ですし、Prophetはさくっと「それっぽい」予測をしてみる分には非常に使えるんじゃないかと思います。

[amazon_link asins=’4774163015′ template=’Original’ store=’tob-22′ marketplace=’JP’ link_id=’be077932-1faa-4d54-9adc-51ae65595911′]

【Power BI】ウェブデータを簡単に取得してデータ分析する

Power BIは、複数のデータソースと連携しやすいのが特徴ですが、その一つにウェブからのデータ取得があります。

これを使うと、ウェブサイト上にあるデータを簡単に取得し、データ分析に活用することができるようになります。

今回は、WikipediaからJリーグのクラブ成績を取得して、データ分析をしたいと思います。

J1リーグ – Wikipedia

 

Webからのデータ取得はこんなに簡単

まず「Get Data」で「Web」を選択します。

URLを入力すると、そのページ内にあるテーブルデータの一覧が候補として抽出されます。もうこの時点で非常に便利ですね。テーブル一覧から取得したい対象のデータを選択し、必要に応じてデータを加工します。

もうこれだけでデータの取得を完了してしまいました。

後は自由にデータを使って分析をしましょう。

 

今回取得した、J1クラブの通算成績を使って、各クラブの滞在期間をみてみます。

オリジナル、と言われるクラブの中で、いまだにJ2の降格経験がないのは横浜Fマリノスと鹿島アントラーズの2チームです。そのあと、ガンバ大阪、名古屋グランパス、浦和レッズ、清水エスパレスと続きます。

このグラフを作るまで、5分もかかっていません。URLを指定して、データを少し加工したら、あとはグラフにデータをプロットしておしまいです。

Power BIって本当便利ですね。

 

Power BIを本格的に勉強するなら、Udemyがおすすめです。英語にはなりますが、動画で字幕つければ結構わかります。日本語だと情報も少ないですし。

Microsoft Power BI Masterclass – Expand Excellence