ディシジョンツリー(Decision Tree、決定木)とは?〜簡単な作り方と書き込みシート

サービス提供:日本情報マート

ビジネスは常に、意思決定(目標を達成するために必要な行動を選択すること)の連続です。ただ、この意思決定が勘や経験だけに基づくものだったり、単なる前例踏襲だったりすると、周囲から「なぜ、その選択をしたの?」と尋ねられたときに論理的な説明ができません。そこで紹介したいのが、「樹形図(決定木)」を作って考え得る行動の選択肢を洗い出し、最良のものを選び出すフレームワーク「ディシジョンツリー」です。

1 ディシジョンツリーとは

ディシジョンツリー(Decision Tree)とは、「決定木」や「決定木分析」と訳されるもので、

何かの意思決定をする際、考え得る選択肢の中から最良のものを選び出すフレームワーク

です。決定木と呼ばれる理由は、

木の形をした「樹形図(決定木)」を作って、欲しい答え(目標変数)にたどり着くための条件(説明変数)を見つけるから

です。
ディシジョンツリーを使うことで、勘や経験だけでなく、定量的な分析に基づいた判断がしやすくなります。この記事では、ディシジョンツリーにおいて必要な知識とその作り方、そして書き込みシートを紹介します。

2 ディシジョンツリーで大切な分類木と回帰木

1)分類木とは?

分類木とは、

顧客の購買データなどを、年齢や年収などで区分しながら作成する樹形図

です。例えば、図表1では、ECサイトで商品Aという高額商品を購入した顧客データから見込み客を選定しています。

分類木のイメージ画像です

図表1では、「年齢40代以上、年収600万円以上」の人が最も有力な見込み客となっています。分類木には、

早めに出てくる分岐ほど力が強くなる(重要度が高い)

という特徴があります。例えば、年代で別々の広告手法を模索しているなら「年齢」、地域なら「居住地」などが分岐の条件になります。

2)回帰木とは?

回帰木とは、

取り得る行動を「結果の数値」「発生する確率」に応じて分岐させ、各分岐の期待値(結果の数値×発生する確率)を算出するための樹形図

です。例えば、図表2では、見込み客に商品をPRするために、Web広告を「出す」「出さない」を判断するのに回帰木を使っています。ここでは、

  • Web広告を「出す(出さない)」場合の収益を「結果の数値」
  • Web広告が「好調(不調)」となる確率を「発生する確率」

としています。
なお、樹形図の「□」「○」「◁」の意味は次の通りです。

□(意思決定ノード、決定ノード):自分で分岐を選べる(意思決定によって決まる)
○(確率ノード、イベントノード):自分で分岐を選べない(確率によって決まる)
◁(終点ノード):これ以上は行動を起こさないので、分岐しない(終点である)

回帰木のイメージ画像です

図表2は、おおまかなイメージを示したものなので、収益や確率の具体的な数値を記載していません(Web広告を出さない場合については、収益は「100%」の確率で「0円」となります)。次章でもう少し詳しく説明します。

3 ディシジョンツリーの作り方

1)Web広告を出すか否か

ここまでの流れを確認しましょう。
あなたは商品Aを販売するに当たり、「分類木」を使ったディシジョンツリーで、見込み客を選定しました。見込み客は、40代以上の年収600万円以上の層でした(図表1を参照)。
次に、「回帰木」を使ったディシジョンツリーで、この層に商品Aを効果的にPRする方法としてWeb広告を検討しました。Web広告費は100万円で、Web広告が「好調」なら収益は300万円、「不調」なら収益は30万円と想定しています。そのディシジョンツリーは図表3の通りです。なお、あなたはWeb広告が好調となる確率を20%と推定しています。

Web広告を「出す」「出さない」画像です

図表3の場合、ディシジョンツリーの作成手順とポイントは次の通りです。

1.「決定」の分岐を示す
意思決定の可能性の分岐です。図表3では、Web広告を「出す」「出さない」の2分岐になります。

2.「結果」の分岐を示す
意思決定によって生じる「結果」の可能性であり、その確率は作成者が決めます。図表3では、Web広告を「出す」場合、その「好調」「不調」の2分岐になります。

3.全ての分岐を終点まで洗い出す
「結果」の分岐の先でさらに行動を起こす場合、「決定」の分岐(成功した場合どうするのか、失敗した場合どうするのかなど)を付け足します。何も行動を起こさない場合、そこが分岐の終点となります。図表3では、Web広告を「出す」場合の結果(2分岐)と、「出さない」場合の結果(分岐なし)が終点です。最後に、終点ごとに収益を書き込みます。

2)Web広告を出すか否か、広告調査を実施するか否か

図表3は、Web広告を出すか否かのみを決定するディシジョンツリーですが、実際のビジネスの意思決定はもっと複雑です。例えば、Web広告を検討する際に、リサーチ会社に「広告調査」(ターゲットにリーチしやすい広告媒体やデザインなど)を依頼するか否かも検討するといった具合です。
この広告調査を組み入れて、Web広告を「出す」「出さない」を判断したディシジョンツリーは図表4の通りです。なお、広告調査を「実施しない」場合の分岐は図表3と同じなので、ここでは一旦置いておきます。

広告調査を「実施する」「実施しない」画像です

図表4の場合、ディシジョンツリーの作成手順とポイントは次の通りです。

1.「決定」の分岐を示す
図表4では、広告調査を「実施する」「実施しない」の2分岐になります。

2.「結果」の分岐を示す
広告調査を「実施する」「実施しない」の分岐の先に、「結果」の分岐を付け足し、発生する結果とその確率を書き込みます。

3.全ての分岐を終点まで洗い出す
「結果」の分岐にWeb広告を「出す」「出さない」という「決定」の分岐を付け足します。図表4では、この意思決定が終点となります。最後に、終点ごとに収益を書き込みます。
そして、図表3(広告調査を実施しない場合の分岐)と図表4(広告調査を実施する場合の分岐)を組み合わせた完成形が図表5であり、A~Gの7つの終点ができています。

広告調査を実施するか、Web広告を出すか画像です

樹形図が完成したら期待値を計算します。手順とポイントは次の通りです。

4.終点での期待値を計算する
期待値は、(結果の数値)×(発生する確率)で求められます。上から順に、広告調査を実施する分岐(終点A~D)では、

  • 終点A(好調、出す)では、60万円(300万円×20%)
  • 終点B(好調、出さない)では、0円(0円×20%)
  • 終点C(不調、出す)では、24万円(30万円×80%)
  • 終点D(不調、出さない)では、0円(0円×80%)

となります。
次に、広告調査を実施しない分岐(終点E~G)では、

  • 終点E(出す、好調)では、60万円(300万円×20%)
  • 終点F(出す、不調)では、24万円(30万円×80%)
  • 終点G(出さない(好不調は関係ない))では、0円(0円×100%)

となります。

5.不要な選択肢を刈り取る
次に、不要な選択肢を刈り取ります。不要な選択肢とは、簡単に言うと「論理的におかしい選択肢」のことです。図表6のように「☓(バツ)」を付けます。

不要な選択肢の刈り取り画像です

 図表6の場合、

  • 「好調」なのに、Web広告を「出さない」
  • 「不調」なのに、Web広告を「出す」

という選択肢が刈り取りの対象です。選択肢を刈るときに大事なのが、

  • 「やりたい」「やりたくない」といった感情で判断しないこと
  • 刈り取った選択肢を削除しないこと

です。ディシジョンツリーはあくまで数値で結果を得るものなので、感覚を交えた判断は結果を出した後に行います。また、「何を刈り取ったのか」を見返したり、「なぜ刈り取ったのか」を社内で話し合ったりすることがあるので、×印を付けるなどにとどめ、後から確認できるようにします。

6.初めの選択肢ごとの期待値を集計する
最後に、初めの選択肢ごとの期待値を求めます。

初めの選択肢ごとの期待値画像です

ここでいう初めの選択肢とは、

  • 広告調査を「実施」し、「好調」となる場合、Web広告を「出す」
  • 広告調査を「実施」し、「不調」となる場合、Web広告を「出さない」
  • 広告調査を「実施しない」

の3つです。具体的には、図表7の緑枠で囲った部分(α群、β群、γ群)ごとの期待値を出します。また、

「結果」の分岐の先では、関わってくる数値全てに割合が影響する

という点に注意が必要です。例えば、20%で分岐している先でかかる費用が100万円なら、期待値から引くべき費用は20万円(100万円×20%)です。
以上を踏まえると、α群、β群、γ群それぞれの期待値は次のようになります。なお、広告調査の費用は20万円とします。

  • α群(終点A=広告調査を「実施」し、「好調」となる場合、Web広告を「出す」)
    =収益の期待値60万円-Web広告の費用100万円×20%-広告調査の費用20万円
    =20万円
  • β群(終点D=広告調査を「実施」し、「不調」となる場合、Web広告を「出さない」)
    =収益の期待値0円-広告調査の費用20万円
    =-20万円
  • γ群(終点E+F+G=広告調査を「実施しない」)
    =収益の期待値60万円+24万円+0円-Web広告の費用100万円
    =-16万円

この場合、最も期待値が高いのはα群です。従って、今回は、

広告調査を「実施」し、「好調」となる場合、Web広告を「出す」

という選択を取ることとなります。
また、今回は広告調査を実施する前の段階でディシジョンツリーを作成していますが、実際に広告調査を行った場合には、その結果を踏まえて数字(収益や確率)を修正し、再度ディシジョンツリーを作り直すと、より精度の高いものになります。

4 ディシジョンツリーで特に陥りやすいポイント

1)過学習になっている(条件を増やし過ぎていないですか?)

過学習になる、つまり分岐が増え過ぎるとディシジョンツリーの良さを潰してしまうことになります。理想としては、図表8のように、

縦に見て4分岐前後が最適

とされます。

最適な分岐数画像です

もしも分岐が多くなるようであれば、図表3と図表4で実践したように、小さなディシジョンツリーを別々に作って見比べて判断するとよいでしょう。

2)結果に違和感がある

ディシジョンツリーの結果が出たものの、「この結果は本当に妥当なのか?」と違和感を覚えることがあります。期待値の計算結果と勘や経験、どちらが正しいのかを考える前に、

参考となるデータ、設定した数値、想定され得る選択肢の数などの条件が足りているか

を確認してみましょう。また、

「結果」の発生する確率や予測した収益などの見積もりに違和感はないか

も確かめてみましょう。数字を設定するのは作成者自身なので絶対の正解はありませんが、社内の他の人にも意見を聞いてみて納得が得られない場合、数字の見直しが必要かもしれません。

5 書き込みシート

最後に、実際にディシジョンツリーで意思決定を行うための書き込みシートを紹介します。プリントアウトしてお使いください。図表9は、1~3つの意思決定で悩んでいるときにお使いいただけます。

書き込みシートA(1~3つの意思決定用画像です

図表10は、2段階の意思決定が発生するときにお使いいただけます。

書き込みシートB(2段階の意思決定用画像です

以上(2022年12月作成)

画像:AVA Bitter-Shutterstock

提供
日本情報マート
中小企業の頼れる情報源として、経営者の意思決定をサポートするコンテンツを配信。「売上向上」「市場動向」「開業収支」「人材育成」「朝礼スピーチ」など1000本を超えるコンテンツのほか、市場調査も実施。現在、30を超える金融機関に情報提供中。

関連するキーワード

PickUpコンテンツ