データ形式としては表形式データ、ファイルフォーマットとしては CSV(カンマ区切り)と TSV(タブ区切り)に対応しています。
各行が1つのサンプル(1つのデータのことをサンプルと呼びます。たとえば、顧客データでは顧客のことです。)に対応し、各列(項目)がサンプルの属性(たとえば、年齢、性別など)に対応します。データファイルの最初の行は列名(項目名)を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。
予測したい項目(たとえば、継続か退会か)は項目の 1 つとして、ファイルに書かれているとします。データセットの例として、下図をご参照ください。予測したい項目は「継続・退会」です。同封のサンプルデータも例として参考にしてください。

項目としては以下のデータタイプを利用できます。予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。
| データタイプ | 説明 |
|---|---|
| 文字列 | カテゴリカル値(例:上記の「性別」項目) |
| テキスト | テキスト(日本語または英語で記述された文章) |
| 数値 | 整数や小数などの数値(例:上記の「過去購入額」項目) |
| 日時 | 日付・時間(例:上記の「登録日」項目) |
1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分の間に含まれる日時データは日時型データとして読み取り利用できます。日時型データとして読み取るには、日時型データのフォーマットを統一する必要があります。たとえば、以下のようなデータを日時型データとして読み取ることができます。
| 日時データの説明 | 具体例 |
|---|---|
| 年毎のデータ | 「2019」 |
| 月毎のデータ | 「2019-6」「201906」 |
| 日毎のデータ | 「2019/6/12」「2019-6-12」「20190612」「2019/06/12 00:00:00」 |
| 時・分毎のデータ | 「2019/06/12 03:00:00」「2019-06-12 21:30:00」 |
日時の項目は以下のフォーマットで用意してください。日時は 1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分までが利用可能です。秒のデータはあってもよいですが、Prediction One では利用されません。(y=年, M=月, d=日, H=時, m=分, s=秒)
yyyy-MM-dd HH:mm:ssyyyy-MM-dd HH:mmyyyy-MM-dd H:mm:ssyyyy-MM-dd H:mmyyyy-MM-ddyyyy-MM-d HH:mm:ssyyyy-MM-d HH:mmyyyy-MM-d H:mm:ssyyyy-MM-d H:mmyyyy-MM-dyyyy-M-dd HH:mm:ssyyyy-M-dd HH:mmyyyy-M-dd H:mm:ssyyyy-M-dd H:mmyyyy-M-ddyyyy-M-d HH:mm:ssyyyy-M-d HH:mmyyyy-M-d H:mm:ssyyyy-M-d H:mmyyyy-M-d yyyy/MM/dd HH:mm:ssyyyy/MM/dd HH:mmyyyy/MM/dd H:mm:ssyyyy/MM/dd H:mmyyyy/MM/ddyyyy/MM/d HH:mm:ssyyyy/MM/d HH:mmyyyy/MM/d H:mm:ssyyyy/MM/d H:mmyyyy/MM/dyyyy/M/dd HH:mm:ssyyyy/M/dd HH:mmyyyy/M/dd H:mm:ssyyyy/M/dd H:mmyyyy/M/ddyyyy/M/d HH:mm:ssyyyy/M/d HH:mmyyyy/M/d H:mm:ssyyyy/M/d H:mmyyyy/M/dyyyy-MMyyyy-MyyyyMMddyyyyMMdd-MM-yyyydd-M-yyyyd-MM-yyyyd-M-yyyyyyyymmm-yy (mmmは月名が英語の省略形で表現される形式です。たとえば、Jan-21は2021年1月を表します。この形式の場合、現在の年月がyyyy年mm月のとき、(yyyy-80)年(mm+1)月~(yyyy+20)年(mm)月以内、かつ、1970年1月~3999年12月以内、のデータのみ利用可能です。)