「2 データを用意する」に取り組む

前回のあらすじ

タスクの確認

次は、「2 データを用意する」だ。これに関しては自分の場合すでにBIツールに取り込まれているデータがあるからそれを使えばいいんじゃないのか?でもまずはタスクの詳細を見てみよう。
2 データを用意する」には、

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

のステップがあるみたいだ。詳細を読んでみるとこのうち「2.1 データを入手する」と「2.2 データを可視化し素性を把握する」は「1 課題を設定する」でデータが手元になかった人用のタスクらしい。よってすでに完了済みだ。
だから「2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する」からやればよいことになるな。


「2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する」に取り組む

行は各レコードで列はそのレコードを説明する情報という1つの表形式にデータを表す必要があると……。BIツールの元データをダウンロードして確認してみよう。
うん、特に問題なさそうだ。完了済みということで飛ばした「2.1 データを入手する」には、データ収集に際して社内の協力を仰ぐというステップもあった。確かにこれをやればもっといろいろなデータが集まりそうな気もするが、次のタスクに進むのも大事ということでまずは次に進んでしまおう。


「2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する」に取り組む

ええと「学習」「評価」「予測」という3つのステップ……。あれ、これってなんだっけ。リンクにある「機械学習の3ステップ」をもう一度読んで確認しよう……。
ああ、そうだ、思い出した。つまり予測の時も用意できる項目しか学習にも使えない、ということだ。予測はテレアポを実施する前に行わなければ意味がない。一方で項目の中にはテレアポ後に得られるもの、例えばテレアポ特典利用有無なども含まれる。こういった項目は予測モデルの作成に使わないよう注意しよう。


よし、これで「2 データを用意する」も完了だ。次は「3 予測モデルを作成する」だ。

まとめ

このページでケンタさんは以下のタスクを完了しました。

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

ここではケンタさんになったと思って進め方ガイドのチェックを埋めてみましょう。


「『3 予測モデルを作成する』に取り組む」にすすむ
PAGE TOP

お問い合わせ・資料はこちらから

資料ダウンロード お問い合わせ 体験版