予測したい項目との関連度が低い項目を取り除くために関連度スコアを活用できます。
予測したい項目と比較したとき、傾向や対応関係がほとんど見られない場合は関連度スコアが0に近くなります。

たとえば、上記データにあるような顧客ID(A列)と退会記録(B列)を比較してみると関連度スコアが0になることが確認できます。

これは、顧客IDと退会記録の間に傾向が見つけられなかったためです。
Prediction Oneは「顧客ID」や「氏名」のような予測したい項目と関係のない項目が含まれていたとしても精度高くできます。
しかし、とくにデータ数が少ない場合、「顧客ID」と予測したい項目との関係を見出して直感的でない予測をする可能性があります。
たとえば、『IDが10以下ならば退会しやすい』といったルールを見出して予測をするかもしれません。
関連度スコアをもとに予測したい項目とは関係のない項目を事前に取り除くことで、より精度が高い予測モデルを作りやすくなります。