このセクションには「学習用データのサマリ」、「データの詳細」、「入力項目と予測対象の関係」の 3 種類のページが含まれます。
学習用データのサマリ
予測モデルの学習に使用されたデータの概要が表示されています。表示される情報を以下に列挙します。これらはアプリ上の「モデルの詳細タブ」に表示されている情報の一部です。
- 項目情報
各項目のデータタイプやユニーク数等が表にまとめられます。時系列予測モードを使用した場合のみ「予測時個別指定」という列が追加されます。予測時に個別に指定する必要がある項目には「〇」を、必要が無い項目には「-」を表示します。
- 予測したい項目
予測対象の項目名です。
- 予測したい項目の統計/内訳
分類の場合、予測したい項目の内訳が表示されます。項目に含まれる値とその出現する割合を意味します。数値予測の場合、予測したい項目の統計が表示されます。項目に含まれる値の最大値・最小値・平均値・中央値が表示されます。予測した項目の統計/内訳は入力データの先頭最大 1000 行から計算された値をスライド上に表示しています。そのため、アプリの「モデルの詳細」タブに表示されている情報と異なっている場合があります。
- 入力された表データのサイズ
学習に実際に使用された表形式データの列数と行数ではなく、最初に入力したCSV/TSVデータの列数と行数を示しています。
データの詳細
予測モデルの学習に使用されたデータについて、学習用データのサマリよりも詳細な項目情報を表にまとめています。サマリページに記載されている項目名、データタイプ、ユニーク数、欠損、相関に加えて、以下の 2 つの項目を表示しています。
- 基本統計量
データタイプが文字列である項目はその項目に含まれる値とその出現する割合が表示されます。値が 8 種類以下の場合は全ての値についてその出現割合が表示されますが、 9 種類以上の値が存在する場合 7 種類までが表示されそれ以降は省略されます。データタイプが数値の場合、最大値、最小値、平均値、中央値が表示されます。
- グラフ
データタイプが文字列の場合、グラフの縦軸はその項目に含まれる値のデータ中への出現回数を意味し、横軸は値の種類を意味します。データタイプが数値の場合、グラフの縦軸はある数値範囲に含まれる数値データの数量を意味し、横軸はその項目に含まれる値の範囲を等間隔に分割した数値範囲を意味します。このグラフを見ることで各項目の分布がどのようになっているのかを一目で確認できます。
入力項目と予測対象の関係
データをより良く理解するために、入力項目と予測対象との間にどのような関係があるのかを算出しています。予測タイプごとに適切なグラフと説明文を表示しています。
-
二値分類、数値予測
入力項目を複数組み合わせた時に予測対象とどのような関係性にあるのか、独自のモデルを使用して算出しています。項目が多く存在するとき様々な組み合わせと関係性が導かれますが、特に予測した項目への影響が大きいものをスライド上に出力しています。説明資料中ではそれらの関係性のことを「ルール」と呼んでいます。あるルールに該当する場合と該当しない場合とで予測したい項目にどのような違いが現れるかを定量的に示し、文章とグラフとで表現しています。ルールを寄与度等と合わせて解釈することによりデータに対する理解が深まると期待できます。
-
多値分類
1 つの入力項目と予測対象との関係をグラフとインサイトの文章で説明しています。入力項目は関連度スコアが高いものから選択されます。入力項目が文字列型の場合、その入力項目のなかで出現頻度の最も高い5 種類の値の分布を予測対象のごとに計算しています。グラフの見方を具体的に説明すると、例えば下図の例の場合、「故障タイプ(予測対象)」が「電源・接続」である学習データのうち、「故障個所」が「ディスプレイ」であるデータが約 20 %, 「電源」であるデータが約 80 %, 「ボタン」であるデータが約 0 %となります。
入力項目が数値型の場合、予測対象ごとに入力項目の平均値を比較するグラフとインサイトを提示します。
いずれの場合でも予測対象の値は学習データ中の出現頻度が高い順に最大 8 種類まで表示されます。インサイトの文章ではグラフから読み取れるポイントを最大 2 つ列挙しています。
-
時系列予測
時間の経過とともに予測対象がどのように変化するのか、グラフとインサイトの文章で説明します。横軸に時刻をとり、時間経過とともに増加傾向なのか、減少傾向なのか、横ばい傾向なのかを提示します。
なお、データによってはこれらの入力項目と予測対象との関係を求めることができないこともあり、その場合にはスライド上に「ルールを作成できませんでした」「インサイトを生成できませんでした」等のエラーメッセージが表示されます。