データセットのより詳細な仕様

二値分類・多値分類用データセット作成時の注意点

Prediction One では、ファイルの先頭1000行を読み込んで予測したい項目の値が何種類あるのかを判定します(上記の例だと「継続」と「退会」の 2 種類) 。予測したい項目が文字列の場合、判定されたユニーク数によって二値分類か多値分類かの判定を行います。 二値分類を実行したい場合、先頭1000行に予測したい項目の値が 2 種類出現するようにしてください。多値分類を実行したい場合、先頭1000行に予測したい項目の値が3種類以上出現するように並び替えておいてください。また、20種類を超える分類には対応していませんのでご注意ください。

欠損値の扱い

欠損値とは、記録が取れていないデータを指します。 欠損値がある場合は、空文字を利用してください。

学習用データのサイズ

100 行~ 100 万行、2 列~ 200 列の学習用データを用意してください。時系列予測モードの場合は、20 行~ 1 万行、2 列~ 200 列の学習用データを用意してください。データ結合を利用する場合は、学習用データと関連データの合計の列数が 200 列以内になるように学習用データを用意して下さい。

行数や列数が増えるほど、学習にかかる時間・メモリ使用量は増加します。メモリ使用量がお使いの PC の容量を超えるとソフトウェアが終了する場合があります。

日時フォーマット

データタイプが日時の項目は以下のフォーマットで用意してください。日時は 1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分までが利用可能です。秒のデータはあってもよいですが、Prediction One では利用されません。(y=年, M=月, d=日, H=時, m=分, s=秒)

  • yyyy-MM-dd HH:mm:ss
  • yyyy-MM-dd HH:mm
  • yyyy-MM-dd H:mm:ss
  • yyyy-MM-dd H:mm
  • yyyy-MM-dd
  • yyyy-MM-d HH:mm:ss
  • yyyy-MM-d HH:mm
  • yyyy-MM-d H:mm:ss
  • yyyy-MM-d H:mm
  • yyyy-MM-d
  • yyyy-M-dd HH:mm:ss
  • yyyy-M-dd HH:mm
  • yyyy-M-dd H:mm:ss
  • yyyy-M-dd H:mm
  • yyyy-M-dd
  • yyyy-M-d HH:mm:ss
  • yyyy-M-d HH:mm
  • yyyy-M-d H:mm:ss
  • yyyy-M-d H:mm
  • yyyy-M-d yyyy/MM/dd HH:mm:ss
  • yyyy/MM/dd HH:mm
  • yyyy/MM/dd H:mm:ss
  • yyyy/MM/dd H:mm
  • yyyy/MM/dd
  • yyyy/MM/d HH:mm:ss
  • yyyy/MM/d HH:mm
  • yyyy/MM/d H:mm:ss
  • yyyy/MM/d H:mm
  • yyyy/MM/d
  • yyyy/M/dd HH:mm:ss
  • yyyy/M/dd HH:mm
  • yyyy/M/dd H:mm:ss
  • yyyy/M/dd H:mm
  • yyyy/M/dd
  • yyyy/M/d HH:mm:ss
  • yyyy/M/d HH:mm
  • yyyy/M/d H:mm:ss
  • yyyy/M/d H:mm
  • yyyy/M/d
  • yyyy-MM
  • yyyy-M
  • yyyyMMdd
  • yyyyMM
  • dd-MM-yyyy
  • dd-M-yyyy
  • d-MM-yyyy
  • d-M-yyyy
  • yyyy
  • mmm-yy (mmmは月名が英語の省略形で表現される形式です。例えば、Jan-212021年1月を表します。この形式の場合、現在の年月がyyyy年mm月のとき、(yyyy-80)年(mm+1)月~(yyyy+20)年(mm)月以内、かつ、1970年1月~3999年12月以内、のデータのみ利用可能です。)