「2 データを用意する」に取り組む

前回のあらすじ

タスクの確認

次は、「2 データを用意する」だ。まずはタスクの詳細を見てみよう。
2 データを用意する」には、

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

のステップがあるみたいだ。詳細を読んでみるとこのうち、「2.1 データを入手する」と「2.2 データを可視化し素性を把握する」は「1 課題を設定する」でデータが手元になかった人用のタスクらしい。よってすでに完了済みだ。
だから「2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する」からやればよいことになるな。


「2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する」に取り組む

行は各レコードで列はそのレコードを説明する情報という1つの表形式にデータを表す必要があると……。これは「データとは」でも確認したように、行は各エアコンで列にそのエアコンを製造したときに各種データをそろえればよいということか。
改めて確認すると、可視化した際にある程度この形式でデータを整理していたため特に問題はなさそうだ。完了済みということで飛ばした「2.1 データを入手する」には、データ収集に際して社内の協力を仰ぐというステップもあった。確かにこれをやればもっといろいろなデータが集まりそうな気もするが、次のタスクに進むのも大事ということでまずは次に進んでしまおう。


「2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する」に取り組む

ええと「学習」「評価」「予測」という3つのステップ……。あれ、これってなんだっけ。リンクにある「機械学習の3ステップ」をもう一度読んで確認しよう……。
ああ、そうだ、思い出した。つまり予測の時も用意できる項目しか学習にも使えない、ということだ。しかし今回は「予測分析を寄与度の分析に利用すると決めた場合はそもそも予測を行わないので手元のデータが予測時に手に入るか否かについて配慮をする必要はありません(このタスクは完了済みになります)」に該当するので、このタスクは完了済みだ。


よし、これで「2 データを用意する」も完了だ。次は「3 予測モデルを作成する」だ。

まとめ

このページでタツヤさんは以下のタスクを完了しました。

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

ここではタツヤさんになったと思って進め方ガイドのチェックを埋めてみましょう。


「『3 予測モデルを作成する』に取り組む」にすすむ
PAGE TOP

お問い合わせ・資料はこちらから

資料ダウンロード お問い合わせ 体験版