データセット形式の概要
データ形式としては表形式データ、ファイルフォーマットとしては CSV(カンマ区切り)と TSV(タブ区切り)に対応しています。
各行が1つのサンプル(1つのデータのことをサンプルと呼びます。例えば、顧客データでは顧客のことです。)に対応し、各列(項目)がサンプルの属性(例えば、年齢・性別など)に対応します。データファイルの最初の行は列名(項目名)を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。
予測したい項目(例えば、継続か退会か)は項目の 1 つとして、ファイルに書かれているとします。データセットの例として、下図をご参照ください。予測したい項目は「継続・退会」です。同封のサンプルデータも例として参考にしてください。
項目のデータタイプ
項目としては以下のデータタイプを利用できます。予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。
データタイプ | 説明 |
---|---|
文字列 | カテゴリカル値(例:上記の「性別」項目) |
テキスト | テキスト(日本語または英語で記述された文章) |
数値 | 整数や小数などの数値(例:上記の「過去購入額」項目) |
日時 | 日付・時間(例:上記の「登録日」項目) |
日時フォーマット
1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分の間に含まれる日時データは日時型データとして読み取り利用することができます。日時型データとして読み取るには、日時型データのフォーマットを統一する必要があります。対応している日時フォーマットの詳細は「より詳細な仕様」を確認してください。例えば、以下のようなデータを日時型データとして読み取ることができます。
日時データの説明 | 具体例 |
---|---|
年ごとのデータ | 「2019」 |
月ごとのデータ | 「2019-6」「201906」 |
日ごとのデータ | 「2019/6/12」「2019-6-12」「20190612」「2019/06/12 00:00:00」 |
時・分ごとのデータ | 「2019/06/12 03:00:00」「2019-06-12 21:30:00」 |