インサイト生成

はじめに

Prediction Oneを使用して精度の良い予測モデルを作成するためには、良いデータを準備することが必要不可欠です。そのようなデータを準備するためには事前にデータをよく理解することが重要です。

データを理解するために活用できるのが、本資料で紹介するインサイト生成機能です。インサイト生成機能では自動でデータを可視化し、注目すべきインサイトを抽出します。本資料ではこの機能によってどのようなインサイトが作られるのか、どのような活用方法があるかをご説明します。

アプリ内での本機能の使用方法についてはインサイト生成機能の画面操作と説明をご参照ください。

インサイトとは

インサイトはデータに関する様々な情報から構成されます。インサイトは以下の3種類があり、インサイト生成機能ではそれぞれ別のタブに表示されています。

  • 各項目の詳細
  • 項目間の関係
  • サマリ

各インサイトの内容は以下です。

各項目の詳細

「各項目の詳細」はデータに含まれる項目のうち設定画面で選択された項目一つずつについて基本情報、グラフによる可視化、データの改善点を示します。

基本情報

「基本情報」は項目のデータの基本的な統計量をまとめたものです。インサイト生成機能に用いられる統計量は以下の通りです。

  • データタイプ: 項目のデータの種類。数値、文字列、日付、テキストの4種類。
  • ユニーク数: 項目に含まれる値のうち重複を除いた時の値の種類の数。
  • ユニーク割合: データ数に対するユニーク数のパーセンテージ。
  • 欠損数: 項目のデータ中で実際の値が不明であるものの数。
  • 欠損割合: データ数に対する欠損数のパーセンテージ。
  • 最大値: 項目のデータで最大の値。
  • 最小値: 項目のデータで最小の値。
  • 平均値: 項目のデータの平均の値。
  • 中央値: 項目のデータの中央値。
  • 負の値の数: 項目のデータ中の負の値の数。
  • 負の値の割合: データ数に対する負の値の数のパーセンテージ。

項目のデータタイプによって使用される統計量が異なります。以下の表を参照してください。

統計量名 文字列・日付・テキスト型 数値型
データタイプ
ユニーク数
ユニーク割合
欠損数
欠損割合
最大値 ×
最小値 ×
平均値 ×
中央値 ×
負の値の数 ×
負の値の割合 ×

データの可視化

項目ごとにデータのグラフとその説明文を表示します。項目のデータタイプによって作られるグラフの種類が異なります。

  • 数値型の場合 (時系列モード不使用)

    値の範囲を最大20個に区切り、その範囲内に含まれるデータの数を縦軸に取るようなヒストグラムを描画します。

  • 数値型の場合 (時系列モード使用)

    横軸に時間情報、縦軸に予測したい項目の値をとった折れ線グラフを系列ごとに描画します。

  • 文字列・日付型の場合

    値ごとに含まれるデータの数を縦軸に取るような棒グラフを描画します。値の種類が20を超える場合は頻度の低い値は<その他>にまとめられてカウントされます。

  • テキスト型の場合

    テキスト型の列に含まれる文章を単語に分割し、単語のうち名詞の登場頻度を棒グラフで描画します。名詞の種類が20を超える場合は頻度の低いものは<その他>にまとめられてカウントされます。

データの改善点

予測モデルを作成する際に精度を下げる要因になる点についてまとめたものです。以下の4種類のうち該当するものが表示されます。

  • 外れ値

    項目の値の中で他の値と大きく差がある値のことです。外れ値は正しく観測されたものの場合もありますが、例えば転記ミス等通常とは異なる方法で観測されたものである場合もあります。外れ値を含むデータでモデルを作成した場合、モデルが誤ったルールを学習してしまい予測精度に悪影響を及ぼす可能性があります。項目のデータ内に外れ値を含む場合、該当する行を表形式で表示します。

  • 欠損

    項目のデータのうち値が空文字であるものを欠損と呼びます。欠損が含まれていてもPrediction Oneではそれを特別な値として処理しモデルに学習させることができるので処理が不要な場合も多いです。しかし、何らかの異常で値が記録されなかった場合、モデルが期待通りにデータに関するルールを学習することができない可能性があるため、データを適切に処理する必要が出てきます。そのため、欠損割合が一定以上である場合、このデータの改善点を表示します。欠損についても該当する行を表形式で表示します。

  • ユニーク数

    ユニーク割合が一定以上である場合にデータの改善点を表示します。データ数に対してユニークな値が多すぎると作成したモデルの予測精度に悪影響を及ぼす可能性があります。

  • 値の偏り

    予測対象の項目の分布に偏りがある場合にデータの改善点を表示します。ここでいう値の偏りというのは、極端にある値のデータ数が少なかったりすることを指します。データ数が極端に少ない値は十分に学習ができず予測が難しくなる可能性があります。

項目間の関係

「項目間の関係」は予測した項目とそれ以外の入力項目との関係についてのインサイトをまとめたものです。以下の3種類があります。

  • 関連度スコア
  • 相関係数
  • データの可視化

関連度スコア

関連度スコアとは項目間の関連性の強さを表現した指標で、より具体的には相互情報量と呼ばれる値に項目のユニーク率を加味した係数をかけた指標です。0から1の間の値をとります。また、先頭1000行のデータから計算されます。

ヒートマップ上にカーソルを合わせると詳細が表示され、2つの項目とそれらの関連度の値が確認できます。またヒートマップの下には表形式で関連度スコアを確認することもできます。

相関係数

相関係数は2つの項目間の線形の関係を数値で表した指標で、-1から1の間の値をとります。1に近いほど正の相関が強く、0に近いほど相関が弱くなり、-1に近いほど負の相関が強いです。関連度スコアと同様、ヒートマップと表形式でその値を確認することができます。相関係数は数値型の項目同士でのみ計算されます。

データの可視化

2 つの項目間の関係を視覚的に確認するためにグラフを表示します。項目のデータタイプによって作成されるグラフの種類が異なります。

  • 数値型x数値型

    両方の項目が数値型の場合、散布図を描画します。最大で500 データまでプロットされます。赤いプロットは外れ値であることを示しています。

  • 数値型x文字列型

    片方が数値型でもう片方が文字列型の場合、文字列型の項目の値ごとの数値型の項目の平均値を棒グラフで描画します。

  • 文字列型x文字列型

    両方が文字列型の場合、集合棒グラフで値の組み合わせの分布を描画します。棒グラフの集合が片方の項目のある値を意味し、その中に含まれる色の異なるバーがそれぞれもう片方の項目の値を意味します。値の種類が多い場合は頻度の低いものが<その他>にまとめられます。

サマリ

サマリの「注目すべきインサイト」には「各項目の詳細」と「項目間の関係」からピックアップされた重要な情報が表示されます。また、「各項目の詳細」で表示されたデータの改善点を全ての項目についてまとめて表示します。

インサイトの活用方法

インサイトには以下のような活用方法があります。

  1. 予測モデルを作成する前にインサイト生成機能を使用してデータの全容を確認する

    Prediction Oneではデータ分析の専門知識が無くても簡単に予測モデルを作成することが可能です。しかし、精度の改善を行ったり予測精度や寄与度の妥当性を判断したりするためには、データを理解しておく必要があります。予め各項目の詳細や項目間の関係のインサイトを確認してデータの分布や性質を知ることで、予測モデルの性能を上げるためには何をすべきか見通しが立てやすくなります。またデータに照らしてモデルの評価結果を理解し、モデルの良し悪しを判断しやすくなります。

  2. 予測モデルの性能改善を行うために、データの改善点を元にデータを更新する

    データの改善点には予測モデルの性能を損ねる可能性のあるポイントが記されています。モデル評価画面に表示される改善ヒント等も併せて考慮することでより効率よくモデルの精度改善が行えます。

まとめ

インサイト生成機能によってどのようなインサイトが生成されるのか、またインサイトをどのように活用するべきかをご説明しました。データ理解は予測モデル作成・改善のために重要なステップになります。本機能によって自動で生成されるグラフやインサイトがデータ理解をサポートします。

本資料を参考に、ぜひインサイト生成機能をビジネスでご活用ください。

このページの情報は役に立ちましたか?
PAGE TOP

お問い合わせ・資料はこちらから

資料ダウンロード お問い合わせ 体験版