現場データサイエンティスト奮闘記

とある企業で働くデータサイエンティストの日々のアウトプット

データを見て意思決定する必要性とデータドリブンに進める方法論を非分析者向けに語る

本記事の概要

この記事は、社内で企画職向けに実施したデータ分析勉強会の資料をリライトしたものです。

対象読者

  • 非分析者である
  • 日頃からデータを元に仮説を立てて検証していくという習慣がない
  • データをどう見るべきか、意思決定の判断のポイントを知りたい

という人に向けた内容であり、いわゆるデータ分析初心者向けです。

1. データを見る必要性とは?

突然ですが、以下のギャンブルゲームをやってみましょう。 ルールは以下の通りです。

6面ダイスを振って、出た目が当たっていたら勝ちというゲームです。
いま、プレイヤーであるあなたは

・1の目が出る
・5の目が出る

の2つのうちどちらかの選択を行うことができます。
ゲームに勝つために、どちらかを選んでください。

ここで2つほど質問をします。

  • Q1. 1の目、5の目それぞれが出る確率はいくらか?
  • Q2. どちらの目に賭けたほうが良いと論理的に判断できるか?

結果から言ってしまえば、どちらも確率は同じように思えるし、論理的にどちらが良いかなんて判断もできないので最終的には勘で判断せざるを得なくなります。

では、以下のような事実が判明したとしましょう。

6面ダイスの目の構成は、「 1, 1, 1, 4, 5, 6 」である。

ここで、先ほどと同じ質問をします。

  • Q1. 1の目、5の目それぞれが出る確率はいくらか?
  • Q2. どちらの目に賭けたほうが良いと論理的に判断できるか?

1の目が出る確率は1/2で、5の目が出る確率は1/6なので、論理的には賭けるべきは1の目ということになります。 ここでは誰もが同じ結論に達するし、しかも迷いはしないはずです。(あえて5の目を狙いたいハイリスクなスリルを好む人を除いて)

データを見る必要性とはここにあります。

勘と経験で属人的に判断せざるを得なかった事象を、客観的事実に基づくデータから明確な判断基準で誰もが意思決定できるようにすることがデータを見る必要性であると言えます。

2. データを見て意思決定するには?

データの見方がわからない、とよく聞きます。自分が感じるのは「どう見ればいいか」という問題よりも「何を見ればいいか」という問題の方が強いように思えます。

先程のダイスのギャンブルゲームのように、実際にデータを元にした意思決定はシンプルです。

  • 1, 課題に対して定量的な仮説を出す
    • ダイスの例:確率の高い方の目に賭けると良いのではないか
    • 定性的な仮説は往々にして観測不可能なので定量的にしましょう
  • 2, 仮説の根拠としてデータを用いる
    • ダイスの例:1の目は確率 1/2 , 5の目は確率 1/6 だった
    • 場合によっては、データを確認すると仮説の前提となっている事象は事実に反することもありえます。その場合は仮説立案に再度戻ることも必要です
  • 3, 実験を行い確かめる
    • ダイスの例:実際にダイスを振ってみる
  • 4, 上記の仮説検証のサイクルを繰り返す

しかし、現実の課題はこのゲームよりは複雑でこのようにシンプルな意思決定は最初はできません。そこで1つケーススタディで見てみましょう。

3. ケーススタディ:ライブイベントのweb応募フォームの申込数を増加させたい

あなたはある企画のディレクターだとしましょう。

3日間にわたり開催されるライブイベントのweb特設応募フォームにおける申込数が想定より低く、このままでは予算達成が危ういので申込数を稼ぐ必要があります。 しかし、応募締切までの期間は6ヶ月しかなく、改修の工数を考えると思いつくままに全てのアイディアを当たるまで試しているような余裕はなく、効率的に申込件数を稼ぐ必要があります。

前提条件を記載します。

  • 応募フォームは全部で5つのSTEPからなる。
    • STEP 1: 応募する日程を1つ選ぶ
    • STEP 2: S席、A席、B席の値段を確認して席の種類を選ぶ
    • STEP 3: 個人情報を入力する
    • STEP 4: 支払い方法を選ぶ
    • STEP 5: 入力内容を確認し、規約に同意して送信ボタンを押す
  • 広告費の予算は動かせないので流入数を増加させるというマーケティング手段は取れない。
    • 故に、フォームの流入数は一定であるとします。

3.1 仮説立案

申込数は以下のように表すことができます。

申込数 = フォーム流入数(一定) ✕ STEP1突破率 ✕ STEP2突破率 ✕ STEP3突破率 ✕ STEP4突破率 ✕ STEP5突破率

フォーム流入数は一定なので、各STEPの突破率を上げることで申込数を増やす戦略となります。

各ステップを考えてみたところ、以下のような仮説が浮かびました。

  • 仮説1: 席のランクと値段部分がわかりにくくて席が選べないのでは
    • 前提:STEP2の突破率が低い
  • 仮説2: 個人情報の入力に抵抗があって入力率が低いのでは
    • 前提:STEP3の突破率が低い
  • 仮説3: 規約同意部分で規約が読みにくいから最後で送信されないのでは
    • 前提:STEP5の突破率が低い

※ その前提となっている根拠たる指標も合わせて挙げておきましょう。仮説を実験したときにどの指標に影響が出るのかを認識しておくことは非常に重要です。

3.2 仮説の根拠となるデータの確認

実際にデータを取ってみると以下のようになっていました。

各STEP 突破率
STEP 1: 応募する日程を1つ選ぶ 90%
STEP 2: S席、A席、B席の値段を確認して席の種類を選ぶ 50%
STEP 3: 個人情報を入力する 75%
STEP 4: 支払い方法を選ぶ 55%
STEP 5: 入力内容を確認し、規約に同意して送信ボタンを押す 85%

見てみると、STEP2, STEP4 が突破率が低いことがわかります。 このことから、

  • 仮説1はそれなりに有効な仮説なようだ
  • 逆に仮説2, 3は実は課題では無いのかもしれない
  • 実はノーマークだったSTEP4が課題かもしれない

3.3 事実に即したより精度の高い仮説を立案する

データから事実を認識できたので新しい仮説を出します。

  • 仮説1: 席のランクと値段部分がわかりにくくて席が選べないのでは
  • 仮説4: 支払い方法の説明が複雑でわからないのでは
    • STEP4の突破率に影響

先程の仮説2, 3を捨て、新たに仮説4を加えました。

3.4 実験を行う

仮説の立案ができたら施策のアイディアを出します。 例えば、「席ランクと値段を図表でわかりやすく表示」「支払い方法でクレカや銀行振込か選ばせてから実際のクレカ番号など入力するよう小ステップに分ける」など具体的な内容になっていきます。

実際に施策をやるときに仮説が正しいかどうか実験をして確認することも必要です。 この例で言えば、STEP4については支払い方法の説明ではなく、クレカの入力エラー率が高いため突破率が低い可能性もありえるなど他の可能性もありえます。仮説の妥当性は実験によって定量的に示されるべきです。 webフォームの改善のような事例であればABテストなどが望ましいでしょう。

実験の成果が出ない場合は、

  • 施策が課題(仮説)を的確に解決するものではなかった
  • そもそも仮説が見当はずれであった

のケースを想定することになります。

以上のプロセスを繰り返して、実験に成功した施策を広く展開して数字を伸ばしていくことになります。

データ分析のTips

  • 事実と想像を混ぜない
    • 思い込みバイアスがかかっているかは注意です。
  • 大きな指標をざっくり把握したから細かな指標を調べる
    • 急に細かい指標を見始めると視野が狭くなり、もっと大きなボトルネックを見落としがちになります。できるだけ俯瞰→詳細という形で調査しましょう。
  • データはまず可視化する
    • グラフはデータに対する理解を助けます。可視化はデータを見る第一歩です。
  • 定性的な仮説は計測不可能な場合が多いので、仮説は定量的に表現する
    • 「きっとこういう表現にしたらユーザーはわかりやすくなるはずだ!」は良いんですが、「わかりやすくなった」という状態を定義しておきましょう。
    • 基本的にユーザーの気持ちは知り得ないので、その行動で可視化されると思うと定量化できます。わかりやすい!→ クリックする、みたいな