時系列予測モード用のデータセット

時系列予測モードでは、一定の時間間隔で並んだ過去の数値から未来の数値を予測できます。 ただし、「N期先」を予測するのに「2N+1期分以上」の予測モデル作成(学習)用データが必要となります。 (例えば、84か月分の予測モデル作成(学習)用データがある場合、41か月先まで予測できます。)

時系列予測モードを実行するために必要な項目

時系列予測モードを利用するためには以下の項目が必要となります

項目の種別 項目のデータタイプ 必須かどうか 説明
予測したい項目 数値 必須 予測したい数値が含まれる項目。
予測したい項目の時間情報項目 日時 必須 予測したい項目がいつのものなのかを示す時間情報が含まれる項目。すべての日時に重複がなく、かつ、等間隔で並んでいて、かつ、データセット全体がこの項目で昇順または降順にソートされている必要がある。
系列を識別する項目 文字列/数値 複数の系列がある場合、必須 複数の系列(最大 20 個まで)がある場合、系列を分離するための値が含まれる項目。
その他の項目 文字列/テキスト/数値/日時 オプション 予測したい項目と関連がありそうな項目。ただし、実際の予測時に用意できない項目は使用してはいけない。

対応している時間間隔

予測したい項目の時間情報項目に含まれる日時は、年・月・日・時・分の単位で、大部分が一定間隔である必要があります。各時間単位で、対応している時間間隔は以下のとおりです。

時間単位 対応している時間間隔
1~10 年間隔
1~11 カ月間隔
1~28 日間隔
1~23 時間間隔
1~59 分間隔

「その他の項目」として、予測したい項目と関連がありそうな項目を追加すると、時系列予測の精度を高めることができます。 ただし、実際の予測時に用意できない項目は使用することができません。例えば、10 日先の販売数を予測するには、販売日の 10 日前の時点で、10 日先の「イベント(予定)」と「広告費(予定)」の項目を用意する必要があります。

時系列予測機能を使用するには時間情報項目が一定間隔で並んでいる必要がありますが、カスタムモードの「日時による集約」機能を使うことでデータを一定間隔に整理できます。例えば、ある項目の週ごとの平均値を予測する場合は、「日時による集約」にて集約単位を「週」としてから集約方法を「平均」と指定してください。

時系列予測用のデータセットの具体例

系列が存在せず、その他の項目が存在する場合

この例では、予測したい項目=「売り上げ高」、予測したい項目の時間情報項目=「日付」、その他の項目=「セール実施(予定)」「広告費(予定)」となります。

予測モデル作成(学習)用データ

日付 売り上げ高 セール実施(予定) 広告費(予定)
2018/10/08 200 万円 なし 20 万円
2018/10/15 149 万円 なし 19 万円
2018/10/22 112 万円 なし 20 万円
2018/10/29 100 万円 なし 19 万円
2018/11/05 114 万円 あり 20 万円
2018/11/12 153 万円 あり 19 万円
2018/11/19 204 万円 なし 19 万円
2018/11/26 254 万円 なし 20 万円
2018/12/03 289 万円 なし 19 万円
2018/12/10 299 万円 なし 20 万円
2018/12/17 282 万円 なし 19 万円
2018/12/24 242 万円 なし 19 万円
 …  …  …
2019/07/29 282 万円 なし 19 万円
2019/08/05 242 万円 なし 19 万円

このデータセットには予測したい項目の時間情報項目である「日付」項目に、7 日ごとのデータがあります。時間情報が昇順でソートされており、時間の間隔が等間隔に並んでいるため、このデータセットは、時系列予測モードで使用できます。

この予測モデル作成(学習)用データを用いて作成した予測モデルを用いて2019/08/122019/10/07の期間の売り上げ高を予測する場合、予測用データとして以下のようなデータを用意してください。予測したい項目である「売り上げ高」の列は予測用データに含まなくとも予測が可能です。

予測用データ

日付  売り上げ高 セール実施(予定) 広告費(予定)
2019/08/12 なし 20 万円
2019/08/19 なし 19 万円
2019/08/26 なし 20 万円
2019/09/02 あり 19 万円
2019/09/09 なし 20 万円
2019/09/16 あり 19 万円
2019/09/23 なし 19 万円
2019/09/30 なし 20 万円
2019/10/07 あり 19 万円

予測モデル作成(学習)用データの「日付」項目に 7 日ごとのデータがある場合、予測用データセットの「日付」項目も 7 日ごとにしてください。

系列が存在せず、その他の項目が存在しない場合

この例では、予測したい項目=「出荷数」、予測したい項目の時間情報項目=「月」でありその他の項目は存在しません。

予測モデル作成(学習)用データ

出荷数
2016-10 10000 個
2017-01 11400 個
2017-04 15300 個
2017-07 20400 個
2017-10 25400 個
2018-01 28900 個
2018-04 29900 個
2018-07 28200 個
2018-10 24200 個
2019-01 19100 個
2019-04 14100 個
2019-07 10800 個
2019-10 10000 個

このデータセットには予測したい項目の時間情報項目である「月」項目に、3 カ月ごとのデータがあります。 時間情報が昇順でソートされており、時間の間隔が等間隔に並んでいるため、このデータセットは、時系列予測モードで使用できます。

この予測モデル作成(学習)用データを用いて作成した予測モデルを用いて2020-012020-07の期間の出荷数を予測する場合は、「予測用データを自動生成」をチェックして予測を行ってください。 予測用データを指定する場合は、以下のようなデータを予測用データとして用意してください。予測したい項目である「出荷数」の列は予測用データに含まなくとも予測が可能です。

予測用データ

出荷数
2020-01
2020-04
2020-07

複数の系列が存在して、かつその他の項目が存在する場合

この例では、予測したい項目=「販売数」、予測したい項目の時間情報項目=「日付」、系列項目=「販売地域」、その他の項目=「イベント(予定)」「広告費(予定)」となります。

予測モデル作成(学習)用データ

日付 販売地域 販売数 イベント(予定) 広告費(予定)
2019/4/1 地域 A 814 100
2019/4/1 地域 B 1940 100
2019/4/2 地域 A 834 50
2019/4/2 地域 B 1783 50
2019/4/3 地域 A 802 通常イベント 20
2019/4/3 地域 B 1744 通常イベント 20
2019/4/4 地域 A 806 20
2019/4/4 地域 B 1909 20
2019/4/5 地域 A 939 割引キャンペーン 20
2019/4/5 地域 B 1882 20
2019/4/6 地域 A 1333 週末イベント 120
2019/4/6 地域 B 2288 120
2019/4/7 地域 A 1341 120
2019/4/7 地域 B 2207 週末イベント 120
2019/4/29 地域 A 1333 週末イベント 120
2019/4/30 地域 B 2288 120
2019/4/29 地域 A 1341 120
2019/4/30 地域 B 2207 週末イベント 120

このデータセットには予測したい項目の時間情報項目である「日付」項目に、重複した日時(例:2019/4/1)が 2 つずつあります。 このようなデータセットには、複数の系列が含まれている(地域 A と地域 B という系列が含まれている)とみなし、系列を分離するための項目が必須となります。「販売地域」項目に含まれる値「地域 A」と「地域 B」によって系列を分離すると、系列内ではすべての日時に重複なく、かつ、1 日間隔で並んでいて、かつ、時間情報が昇順でソートされているため、このデータセットは、時系列予測モードで使用できます。

この予測モデル作成(学習)用データを用いて作成した予測モデルを用いて2019/5/012019/5/04 の期間の販売数を予測する場合、予測用データとして以下のようなデータを用意してください。予測したい項目である「販売数」の列は予測用データに含まなくとも予測が可能です。

予測用データ

日付 販売地域 販売数 イベント(予定) 広告費(予定)
2019/5/1 地域 A 100
2019/5/1 地域 B 100
2019/5/2 地域 A 50
2019/5/2 地域 B 50
2019/5/3 地域 A 通常イベント 20
2019/5/3 地域 B 通常イベント 20
2019/5/4 地域 A 20
2019/5/4 地域 B 20

複数の系列が存在して、その他の項目が存在しない場合

この例では、予測したい項目=「売り上げ高」、予測したい項目の時間情報項目=「年度」、系列項目=「店舗名」でありその他の項目は存在しません。

予測モデル作成(学習)用データ

年度 店舗名 売り上げ高
1990 店舗 A 2000 万円
1990 店舗 B 2500 万円
1990 店舗 C 2500 万円
1991 店舗 A 1490 万円
1991 店舗 B 2430 万円
1991 店舗 C 2430 万円
1992 店舗 A 1120 万円
1992 店舗 B 2240 万円
1992 店舗 C 2240 万円
1993 店舗 A 1000 万円
1993 店舗 B 1980 万円
1993 店舗 C 1980 万円
2002 店舗 A 1910 万円
2002 店舗 B 2490 万円
2002 店舗 C 2490 万円
2003 店舗 A 1410 万円
2003 店舗 B 2400 万円
2003 店舗 C 2400 万円
2004 店舗 A 1080 万円
2004 店舗 B 2200 万円
2004 店舗 C 2200 万円

このデータセットには予測したい項目の時間情報項目である「年度」項目に 1 年ごとのデータがあります。 時間情報が昇順でソートされており、時間の間隔が等間隔に並んでいるため、このデータセットは、時系列予測モードで使用できます。

この予測モデル作成(学習)用データを用いて作成した予測モデルを用いて20052007の期間の売り上げ高を予測する場合は、「予測用データを自動生成」をチェックして予測を行ってください。 予測用データを指定する場合は、以下のようなデータを予測用データとして用意してください。予測したい項目である「売り上げ高」の列は予測用データに含まなくとも予測が可能です。

予測用データ

年度 店舗名 売り上げ高
2005 店舗 A
2005 店舗 B
2005 店舗 C
2006 店舗 A
2006 店舗 B
2006 店舗 C
2007 店舗 A
2007 店舗 B
2007 店舗 C
このページの情報は役に立ちましたか?