データ形式としては表形式データ、ファイルフォーマットとしては CSV(カンマ区切り)と TSV(タブ区切り)に対応しています。
各行が1つのサンプル(1つのデータのことをサンプルと呼びます。たとえば、顧客データでは顧客のことです。)に対応し、各列(項目)がサンプルの属性(たとえば、年齢、性別など)に対応します。データファイルの最初の行は列名(項目名)を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。
予測したい項目(たとえば、継続か退会か)は項目の 1 つとして、ファイルに書かれているとします。データセットの例として、下図をご参照ください。予測したい項目は「継続・退会」です。同封のサンプルデータも例として参考にしてください。
項目としては以下のデータタイプを利用できます。予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。
データタイプ | 説明 |
---|---|
文字列 | カテゴリカル値(例:上記の「性別」項目) |
テキスト | テキスト(日本語または英語で記述された文章) |
数値 | 整数や小数などの数値(例:上記の「過去購入額」項目) |
日時 | 日付・時間(例:上記の「登録日」項目) |
1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分の間に含まれる日時データは日時型データとして読み取り利用できます。日時型データとして読み取るには、日時型データのフォーマットを統一する必要があります。たとえば、以下のようなデータを日時型データとして読み取ることができます。
日時データの説明 | 具体例 |
---|---|
年毎のデータ | 「2019」 |
月毎のデータ | 「2019-6」「201906」 |
日毎のデータ | 「2019/6/12」「2019-6-12」「20190612」「2019/06/12 00:00:00」 |
時・分毎のデータ | 「2019/06/12 03:00:00」「2019-06-12 21:30:00」 |
日時の項目は以下のフォーマットで用意してください。日時は 1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分までが利用可能です。秒のデータはあってもよいですが、Prediction One では利用されません。(y=年, M=月, d=日, H=時, m=分, s=秒)
yyyy-MM-dd HH:mm:ss
yyyy-MM-dd HH:mm
yyyy-MM-dd H:mm:ss
yyyy-MM-dd H:mm
yyyy-MM-dd
yyyy-MM-d HH:mm:ss
yyyy-MM-d HH:mm
yyyy-MM-d H:mm:ss
yyyy-MM-d H:mm
yyyy-MM-d
yyyy-M-dd HH:mm:ss
yyyy-M-dd HH:mm
yyyy-M-dd H:mm:ss
yyyy-M-dd H:mm
yyyy-M-dd
yyyy-M-d HH:mm:ss
yyyy-M-d HH:mm
yyyy-M-d H:mm:ss
yyyy-M-d H:mm
yyyy-M-d yyyy/MM/dd HH:mm:ss
yyyy/MM/dd HH:mm
yyyy/MM/dd H:mm:ss
yyyy/MM/dd H:mm
yyyy/MM/dd
yyyy/MM/d HH:mm:ss
yyyy/MM/d HH:mm
yyyy/MM/d H:mm:ss
yyyy/MM/d H:mm
yyyy/MM/d
yyyy/M/dd HH:mm:ss
yyyy/M/dd HH:mm
yyyy/M/dd H:mm:ss
yyyy/M/dd H:mm
yyyy/M/dd
yyyy/M/d HH:mm:ss
yyyy/M/d HH:mm
yyyy/M/d H:mm:ss
yyyy/M/d H:mm
yyyy/M/d
yyyy-MM
yyyy-M
yyyyMMdd
yyyyMM
dd-MM-yyyy
dd-M-yyyy
d-MM-yyyy
d-M-yyyy
yyyy
mmm-yy
(mmm
は月名が英語の省略形で表現される形式です。たとえば、Jan-21
は2021年1月
を表します。この形式の場合、現在の年月がyyyy年mm月
のとき、(yyyy-80)年(mm+1)月~(yyyy+20)年(mm)月
以内、かつ、1970年1月~3999年12月
以内、のデータのみ利用可能です。)