機械学習モデルの作成・予測には「学習」「評価」「予測」という3つのステップがあります(詳しくは「
予測分析の基礎知識 ▶ 機械学習の3ステップ」。「学習」と「予測」の2ステップと表現することもよくあります)。
「学習」のステップで用意したデータ(2.3の画像のようなデータ)のうち予測したい項目以外の項目(説明変数)については「予測」のステップでも入力が必要になるデータです。
先ほどの顧客データの場合、予測したい項目(目的変数)は「プレミアムサービス」です。これは予測したい項目ですので当然「予測」のステップでは手に入らない情報になります。一方で「入会時期」「顧客ランク」「過去購入額」「アンケート結果」の項目(説明変数)は「予測」のステップでも必要な項目です。なぜなら予測モデルは「学習」のステップでこれらの項目と「プレミアムサービス」の傾向を掴み、「予測」のステップでこれらの項目の情報をもとに「プレミアムサービス」の値を出力するからです。
つまり、用意したデータのうち予測したい項目以外の項目(説明変数)については「予測」のステップでも手に入らなければなりません。言い換えると、「予測」のステップでも手に入る項目のみを残して、それを用意したデータとすれば良いということになります。
「予測」時に手に入らない項目が1列でも含まれたデータで予測モデルを作成しても、それは実際には何も予測できない予測モデルとなってしまいます。何が「予測」時にも手に入って、何が「予測」時には手に入らないのか注意しましょう。
なお、時系列予測の予測モデルを作成する場合には一部または全ての説明変数が予測時に手に入らなくても問題ありません。詳しくは「
時系列予測モード:予測したい項目以外の項目」をご覧ください。
また、「
1 課題を設定する」において予測分析を寄与度の分析に利用すると決めた場合はそもそも予測を行わないので手元のデータが予測時に手に入るか否かについて配慮をする必要はありません(このタスクは完了済みになります)。
予測時に手に入るデータがない場合は以下を参考にしてください。
▶
予測時に用意できるデータがない場合