「2 データを用意する」をやり直す

前回のあらすじ

  • 前回の話で、タツヤさんは「4.2 寄与度を確認する」のタスクに取り組みました
  • 寄与度を確認してタツヤさんは寄与度が高くなると思っていた項目が実際は高くなっていないことに気づきデータの用意からやり直すことにしました

「2.2 データを可視化し素性を把握する」に取り組む

確認すべき候補は、

  • データに間違いがある
  • 項目のデータタイプが適切でない
  • 項目内のユニーク数が多すぎる

だったな……。一方で「2 データを用意する」のタスクは、

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

だな。データの入手は完了しているから、「コンプレッサーの振動値」をもう少し詳しく可視化してみよう。


あれ?ほとんどの行で「コンプレッサーの振動値」が欠損になっているぞ。なんでだろう、データ取得者に問い合わせてみよう。

「2.1 データを入手する」に取り組む

担当者に問い合わせたら欠損になっているのは間違いであることが発覚して、ほとんどの行で「コンプレッサーの振動値」の値が埋まっているデータを入手できた!
予測モデルを作ったり可視化をしないと「コンプレッサーの振動値」の間違いには気づかなかったな……。

予測分析で最初から完全なデータを用意出来てベストな予測モデルを作成できるというケースは少ないです。
今回タツヤさんが行ったように予測モデルを作成したり、データの可視化を行って初めてデータの不備に気づくこともあります。
予測分析はデータが肝要です。データの用意と予測モデルの作成を何度も繰り返すことはよくあります。

まとめ

このページでタツヤさんは以下のタスクを完了しました。

  • 2.1 データを入手する
  • 2.2 データを可視化し素性を把握する
  • 2.3 前処理を施し、行が各レコード、列がそれを説明する情報という形でデータを用意する
  • 2.4 予測対象以外の項目は予測時も手に入るデータであることを確認する

ここではタツヤさんになったと思って進め方ガイドのチェックを埋めてみましょう。
なお、タツヤさんは「2.1 データを入手する」は完了していると思って「2.2 データを可視化し素性を把握する」から取り組んだ結果、データの不備に気づき「2.1 データを入手する」からやり直すことにしました。このように細かいやり直しを進め方ガイドで管理したい場合はチェックボックスをクリックして完了状態のタスクを未完了に戻せます。


「まとめ」にすすむ
PAGE TOP

お問い合わせ・資料はこちらから

資料ダウンロード お問い合わせ 体験版