「項目間の関係」は予測した項目とそれ以外の入力項目との関係についてのインサイトをまとめたものです。以下の3種類があります。
関連度スコア
関連度スコアとは項目間の関連性の強さを表現した指標で、より具体的には相互情報量と呼ばれる値に項目のユニーク率を加味した係数をかけた指標です。0から1の間の値をとります。また、先頭1000行のデータから計算されます。
ヒートマップ上にカーソルを合わせると詳細が表示され、2つの項目とそれらの関連度の値が確認できます。またヒートマップの下には表形式で関連度スコアを確認することもできます。
相関係数
相関係数は2つの項目間の線形の関係を数値で表した指標で、-1から1の間の値をとります。1に近いほど正の相関が強く、0に近いほど相関が弱くなり、-1に近いほど負の相関が強いです。関連度スコアと同様、ヒートマップと表形式でその値を確認することができます。相関係数は数値型の項目同士でのみ計算されます。
データの可視化
2 つの項目間の関係を視覚的に確認するためにグラフを表示します。項目のデータタイプによって作成されるグラフの種類が異なります。
-
数値型x数値型
両方の項目が数値型の場合、散布図を描画します。最大で500 データまでプロットされます。赤いプロットは外れ値であることを示しています。
-
数値型x文字列型
片方が数値型でもう片方が文字列型の場合、文字列型の項目の値ごとの数値型の項目の平均値を棒グラフで描画します。
-
文字列型x文字列型
両方が文字列型の場合、集合棒グラフで値の組み合わせの分布を描画します。棒グラフの集合が片方の項目のある値を意味し、その中に含まれる色の異なるバーがそれぞれもう片方の項目の値を意味します。値の種類が多い場合は頻度の低いものが<その他>にまとめられます。