利用できるデータセットの形式

データセット形式の概要

データ形式としては表形式データ、ファイルフォーマットとしては CSV(カンマ区切り)と TSV(タブ区切り)に対応しています。

各行が1つのサンプル(1つのデータのことをサンプルと呼びます。たとえば、顧客データでは顧客のことです。)に対応し、各列(項目)がサンプルの属性(たとえば、年齢、性別など)に対応します。データファイルの最初の行は列名(項目名)を表す内容を書き、2行目以降にサンプルの情報を書きます。各行は同じ項目数である必要があります。

予測したい項目(たとえば、継続か退会か)は項目の 1 つとして、ファイルに書かれているとします。データセットの例として、下図をご参照ください。予測したい項目は「継続・退会」です。同封のサンプルデータも例として参考にしてください。

項目のデータタイプ

項目としては以下のデータタイプを利用できます。予測したい項目に指定できるのは、二値分類・多値分類では文字列または数値、数値予測では数値のみです。

データタイプ 説明
文字列 カテゴリカル値(例:上記の「性別」項目)
テキスト テキスト(日本語または英語で記述された文章)
数値 整数や小数などの数値(例:上記の「過去購入額」項目)
日時 日付・時間(例:上記の「登録日」項目)

日時フォーマット

1970 年 1 月 1 日 0 時 0 分から 3999 年 12 月 31 日 23 時 59 分の間に含まれる日時データは日時型データとして読み取り利用することができます。日時型データとして読み取るには、日時型データのフォーマットを統一する必要があります。対応している日時フォーマットの詳細は「より詳細な仕様」を確認してください。たとえば、以下のようなデータを日時型データとして読み取ることができます。

日時データの説明 具体例
年毎のデータ 「2019」
月毎のデータ 「2019-6」「201906」
日毎のデータ 「2019/6/12」「2019-6-12」「20190612」「2019/06/12 00:00:00」
時・分毎のデータ 「2019/06/12 03:00:00」「2019-06-12 21:30:00」