データセット

データセット形式

データ形式としては表形式データ、ファイルフォーマットとしては CSV(カンマ区切り)と TSV(タブ区切り)に対応しています。

各行が1つのサンプル(1つのデータのことをサンプルと呼びます。例えば、顧客データでは顧客のことです。)に対応し、各列(項目)がサンプルの属性(例えば、年齢・性別など)に対応します。データファイルの最初の行は列名(項目名)を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。

予測したい項目(例えば、継続か退会か)は項目の 1 つとして、ファイルに書かれているとします。データセットの例として、下図をご参照ください。予測したい項目は「継続・退会」です。同封のサンプルデータも例として参考にしてください。

項目のデータタイプ

項目としては以下のデータタイプを利用できます。予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。

データタイプ 説明
文字列 カテゴリカル値(例:上記の「性別」項目)
テキスト テキスト(日本語または英語で記述された文章)
数値 整数や小数などの数値(例:上記の「過去購入額」項目)
日時 日付・時間(例:上記の「登録日」項目)

日時フォーマット

1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分の間に含まれる日時データは日時型データとして読み取り利用できます。日時型データとして読み取るには、日時型データのフォーマットを統一する必要があります。例えば、以下のようなデータを日時型データとして読み取ることができます。

日時データの説明 具体例
年ごとのデータ 「2019」
月ごとのデータ 「2019-6」「201906」
日ごとのデータ 「2019/6/12」「2019-6-12」「20190612」「2019/06/12 00:00:00」
時・分ごとのデータ 「2019/06/12 03:00:00」「2019-06-12 21:30:00」

日時の項目は以下のフォーマットで用意してください。日時は 1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分までが利用可能です。秒のデータはあってもよいですが、Prediction One では利用されません。(y=年, M=月, d=日, H=時, m=分, s=秒)

  • yyyy-MM-dd HH:mm:ss
  • yyyy-MM-dd HH:mm
  • yyyy-MM-dd H:mm:ss
  • yyyy-MM-dd H:mm
  • yyyy-MM-dd
  • yyyy-MM-d HH:mm:ss
  • yyyy-MM-d HH:mm
  • yyyy-MM-d H:mm:ss
  • yyyy-MM-d H:mm
  • yyyy-MM-d
  • yyyy-M-dd HH:mm:ss
  • yyyy-M-dd HH:mm
  • yyyy-M-dd H:mm:ss
  • yyyy-M-dd H:mm
  • yyyy-M-dd
  • yyyy-M-d HH:mm:ss
  • yyyy-M-d HH:mm
  • yyyy-M-d H:mm:ss
  • yyyy-M-d H:mm
  • yyyy-M-d yyyy/MM/dd HH:mm:ss
  • yyyy/MM/dd HH:mm
  • yyyy/MM/dd H:mm:ss
  • yyyy/MM/dd H:mm
  • yyyy/MM/dd
  • yyyy/MM/d HH:mm:ss
  • yyyy/MM/d HH:mm
  • yyyy/MM/d H:mm:ss
  • yyyy/MM/d H:mm
  • yyyy/MM/d
  • yyyy/M/dd HH:mm:ss
  • yyyy/M/dd HH:mm
  • yyyy/M/dd H:mm:ss
  • yyyy/M/dd H:mm
  • yyyy/M/dd
  • yyyy/M/d HH:mm:ss
  • yyyy/M/d HH:mm
  • yyyy/M/d H:mm:ss
  • yyyy/M/d H:mm
  • yyyy/M/d
  • yyyy-MM
  • yyyy-M
  • yyyyMMdd
  • yyyyMM
  • dd-MM-yyyy
  • dd-M-yyyy
  • d-MM-yyyy
  • d-M-yyyy
  • yyyy
  • mmm-yy (mmmは月名が英語の省略形で表現される形式です。例えば、Jan-212021年1月を表します。この形式の場合、現在の年月がyyyy年mm月のとき、(yyyy-80)年(mm+1)月~(yyyy+20)年(mm)月以内、かつ、1970年1月~3999年12月以内、のデータのみ利用可能です。)
このページの情報は役に立ちましたか?