データ形式としては表形式データ、ファイルフォーマットとしては CSV (カンマ区切り) と TSV (タブ区切り) に対応しています。
各行が1つのサンプル (1つのデータのことをサンプルと呼びます。たとえば、顧客データでは顧客のことです。) に対応し、各列 (項目) がサンプルの属性 (たとえば、年齢、性別など) に対応します。データファイルの最初の行は列名 (項目名) を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。欠損値がある場合は、空文字を利用してください。項目としては文字列/テキスト/数値/日付時の 4 種類のデータタイプが利用できます。ただし、予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。
Prediction One では、ファイルの先頭1000行を読み込んで予測したい項目の値が何種類あるのかを判定します。予測したい項目が文字列の場合、判定されたユニーク数によって二値分類か多値分類かの判定を行います。二値分類を実行したい場合、先頭1000行に予測したい項目の値が 2 種類出現するようにしてください。多値分類を実行したい場合、先頭1000行に予測したい項目の値が3種類以上出現するように並び替えておいてください。また、200種類を超える分類には対応していませんのでご注意ください。具体的な例については詳細な仕様もご参照ください。