データの偏り・不均衡なデータ

予測したい項目に偏りがあるとは、分類を行う際に予測したい項目に含まれるそれぞれの値の出現頻度に大きな偏りがある状態を指しています。

たとえば、チュートリアル「退会予測による退会の削減」では、顧客が「(a)退会」「(b)継続中」のどちらに当てはまるかの二値分類を行いますが、「(a)退会」した顧客が 10 人、「(b)継続中」の顧客が 1000 人の場合は予測したい項目に偏りがある状態です。 予測したい項目に偏りがあるデータをそのまま学習に用いると、「(a)退会」が予測されにくい予測モデルが作成される可能性があります。

予測したい項目に偏りがある状態で特に出現頻度が少ない値を予測したい場合、詳細設定画面にて「予測したい項目の偏りを補正する」にチェックを入れると、出現頻度が少ない値をより予測しやすくなります。 ただし、 このオプションを指定すると分類の正解率(Accuracy)が低下する可能性があります。また、このオプションを指定しても出現回数の少ないデータに対する予測精度が向上しない場合もあります。