予測寄与度の見方

はじめに

本資料では、Prediction One の予測寄与度について説明します。
予測寄与度から、データのどの項目のどの値がどの程度予測結果に影響を与えているかを知ることができます。
これは実際に予測分析を利用する際にとても重要です。

  • 予測の仕方が把握・確認できるので、自信をもって予測結果を利用できる
  • 予測分析の結果を関係者に説明する際に理解が得られやすくなる
  • データのどの部分がどれくらい重要かがわかるので、データセットの改善に繋げられる。ミスに気付きやすい
  • 以前は想像していなかった項目の寄与があると、新たな発見に繋がる

予測分析の学習と予測

予測分析では、学習と予測という2つのステップがあります。以下は購入実績データから顧客の購入予測を行う例です。

予測寄与度の算出方法の概要

予測寄与度は、予測モデルに対して算出されます。まず、あるデータ(例:顧客 a の情報)について予測結果(例:購入確率)を算出します。

次に入力データからある項目(例:部署の情報)を取り除いた状態で、再度予測結果を算出します。

取り除いた項目の予測寄与度は、その項目を 含めた場合/取り除いた場合 の予測確率の差です。上記の例ですと、顧客 a の部署の情報の予測寄与度は、0.85-0.70=0.15 となります。部署の項目が予測確率を 0.15 増加させたとみなします。
予測確率の差が大きいほど、項目は予測結果に寄与しているとみなします。たとえば、予測結果に影響を与えない(寄与度がない)項目があった場合は、あってもなくても同じなので予測確率の差は 0 になるはずです。また予測確率を増やすか減らすかを見ることで、購入確率を上げる方に寄与しているのか、下げる方に寄与しているのかがわかります。

予測寄与度の詳細画面(二値分類)

二値分類用のデータセットを例に予測寄与度の詳細画面を説明します。
顧客データからプレミアムサービスの購入を予測するためのデータセットです。

このサンプルデータセットは、「データ」→「サンプル」タブのデータ一覧から取得可能です。


画面左側には各項目の予測寄与度の大きさが一覧表示されます。寄与度が大きいほどバーの長さが長くなります。バーの長さはもっとも寄与度が高い項目に対する相対的な長さになります。
青いバーは購入確率(「購入あり」の予測確率)を上げる方への寄与度の大きさを表します。赤いバーは購入確率を下げる方への寄与度の大きさを表します。
「並び順」のプルダウンでどのバーを表示するかを切り替えられます。項目名やバーをクリックすると左側の表示が、クリックした項目のものに切り替わります。


画面右側には左側で選択した項目に関する詳細が表示されます。画面中で「顧客ランク」項目がクリックされているとします。「顧客ランク」は、「プラチナ」「ゴールド」「シルバー」「ブロンズ」のいずれかになります。この画面から、「プラチナ」である顧客は「購入あり」の予測確率を高めるように予測に寄与することがわかります。

寄与度の強さは「寄与度」のバーの長さで表示されます。「項目に占める割合」はデータセットの中で選択した項目が項目内容の値である顧客の割合です。 このデータセットだと、「顧客ランク」が「プラチナ」である顧客が、全顧客の 32%いることになります。「プラチナ」は寄与度も大きく顧客も多い重要な情報であることがわかります。


「顧客ランク」が「ブロンズ」「シルバー」「ゴールド」である顧客は「購入なし」の予測確率を高める(「購入あり」の予測確率を下げる)ように予測結果に寄与することがわかります。寄与が大きい順に表示され、寄与の大きさは「寄与度」のバーの長さで表示されます。

仮にこのサービスに詳しい実務者がいた場合、これらの結果は当たり前に見えるかもしれません。実務者の感覚や直感と一致していることが確認できれば、予測に対する信頼を強めることができます。


次に「過去購入額」項目がクリックされているとします。「過去購入額」 は数値の項目です。数値の項目は値の範囲が自動的に設定され、範囲ごとに購入確率にどう寄与するかが表示されます。 「数値の範囲」を見ると、「過去購入額」のどの範囲が予測確率を上げるのか下げるのかが一目でわかるようになっています。青が「購入あり」へ寄与、赤が「購入なし」へ寄与します。

予測寄与度の詳細画面(多値分類)

次に、多値分類の予測寄与度の画面を説明します。以下のデータセットの分析結果を例にご説明します。レビュー文に対してどの苦情タイプを割り当てればよいかを予測するためのデータセットです。

このサンプルデータセットは、「データ」→「サンプル」タブのデータ一覧から取得可能です。


画面左側には各項目の予測寄与度の大きさが一覧表示されます。 多値分類では各クラス(苦情タイプ)ごとに寄与度が算出されますが、最初は合計値が表示されます。「絞り込み」のプルダウンでどのクラスの寄与度を表示するかを切り替えられます。右側のフィルターボタンでも同様の切り替えができます。 二値分類と同様に項目名やバーをクリックすることで右側の表示が切り替わります。


次に右側について説明します。多値分類では、各クラス(苦情タイプ)ごとに寄与度が算出されるので、各クラスごとにそのクラスに寄与する項目内容が表示されます。このデータセットは5クラス分類ですので、5つ表示されます。 「投稿内容」の項目はテキストタイプです。項目内容としては、テキストに含まれる単語が表示されます。「違う」「外見」「感じ」が含まれると「(a)外見」クラスの確率を上げることを示しています。

予測寄与度の詳細画面(数値予測・時系列予測)

数値予測の予測寄与度の画面を説明します。以下のデータセットの分析結果を例にご説明します。コールセンターにおいて過去の入電数実績から将来の入電数を予測します。

サンプルデータは、「アップロード済みのデータから選択」をクリックし、「サンプル」タブのデータ一覧から選択してください。


画面左側には各項目の予測寄与度の大きさが一覧表示されます。寄与度が大きいほどバーの長さが長くなります。バーの長さはもっとも寄与度が高い項目に対する相対的な長さになります。 青いバーは予測値(予測入電数)を増やす方への寄与度の大きさを表します。赤いバーは予測値を減らす方への寄与度の大きさを表します。「並び順」のプルダウンでどのバーを表示するかを切り替えられます。 項目名やバーをクリックすると左側の表示が、クリックした項目のものに切り替わります。


右側について説明します。「曜日」項目がクリックされているとします。 この画面から、「曜日」が「月」「水」「金」だと、予測入電数を増加させることがわかります。「土」「日」だと、予測入電数を減少させます。 「項目に占める割合」については二値分類や多値分類と同様です。たとえば、このデータセットの中で「曜日」が「月」であるデータは全体の 15%であることがわかります。


日付タイプの項目の予測寄与度について説明します。「日付」という日付タイプの項目がクリックされているとします。 このデータセットでは「日付」は「2018/2/1」といった内容ですが、PredictionOne では、年、月、日等の中でもっとも予測に寄与するものを表示します。このデータセットでは、月が選択されています。たとえば、「1月」は予測入電数を減少させるように寄与することがわかります。

予測時の「予測理由を追加する」オプションについて

予測時の「予測理由を追加する」オプションとのその出力結果の見方について説明します。

予測時に「予測理由を追加する」というオプションにチェックを入れると、予測データの行毎に予測理由を追加することができます。


「予測理由を追加する」というオプションがONのときは、予測結果のCSVファイルに「~を上げる1」「~を上げる2」「~を上げる3」「~を下げる1」「~を下げる2」「~を下げる3」という列が追加されます。これは予測確率や予測値を上昇/下降させる要素のTop1/Top2/Top3という意味です。 各予測理由の列は、[項目名]:[項目内容]:[寄与度]の形式で出力されています。 この例では、「顧客ID」が「ID01006」の顧客は、購入ありの確率が71.95%と高いですが、購入ありの確率を上昇させる要素のTop1は、「顧客ランク」が「プラチナ」だから、ということがわかります。さらに、「顧客ランク」が「プラチナ」であることによって、購入ありの確率が21.61%上昇した、ということもわかります。 (寄与度は二値分類の時は予測確率の上昇/下降分、数値予測のときは予測値の上昇/下降分と解釈できます。ただし、多値分類のときは予測確率としての解釈はできません。)


まとめ

本資料では、PredictionOne の予測寄与度についてご説明しました。
この資料の冒頭でご説明した通り、実際に予測分析をビジネスで利用する際には、予測寄与度がとても役に立ちます。
ユーザー様の中には、予測精度よりも予測寄与度を重視される方も多くいらっしゃいます。
本ソフトウェアは予測寄与度の算出と表示内容に力を入れて開発されています。ぜひ本資料で寄与度画面の見方をご理解いただき、予測分析の活用に生かしてください。