データ準備機能 (カスタムモード)

カスタムモードで使用できる各データ加工ステップの処理内容の詳細を説明します。

読み取ることができるデータ

データセットのフォーマットに従ったデータを読み取ることができます。

各加工方法の機能

項目の差を計算

数値型・日時型の列の間の差を計算します。

  • 数値型:2つの数値の差を計算し、新しい項目に結果を記録します
  • 日時型:2つの日時の日数差を計算し、新しい項目に結果を記録します

指定された2つの項目のいずれかが欠損している・数値や日時に変換できない場合は結果は結果は欠損値になります。

項目をコピー

同じ項目をコピーします。

項目を削除

項目を削除します。 削除した項目を再び加工に利用することはできません。

数値や文字列を置換

数値型・文字列型の項目にのみ適用でき、完全に一致する値が含まれる箇所を指定した数値・文字列に置換します。

日時

日時項目として読み取るためには、日時がこのページに記載されている日時フォーマットである必要があります。

日時から項目を作成

日時項目をもとに新しい項目を作成します。

  • 曜日:月~日の曜日を記録した項目を追加します。項目は文字列型として扱われます。
  • 年・月・日:日時項目から年・月・日を抽出します。項目はすべて数値型として扱われます。
  • 年初からの日数:年の1月1日からの日数を記録した項目を追加します。項目は数値型として扱われます。

日時による集約

日時による集約は、日時型項目をもとにして日ごと・週ごと・月ごと・年ごとにデータを集約します。

  • 対象の項目:集約する際に使用する日時型項目を指定します。
  • 集約単位:日・週・月・年を指定できます。
  • 系列:系列名を指定します。
  • 集約方法:合計・平均・先頭の値・ユニーク数・個数を指定できます。
    • 合計:数値の合計を集約した結果とします。
    • 平均:数値の平均を集約した結果とします。
    • 先頭の値:集約する際に、一番はじめに出現した値を集約した結果とします。
    • ユニーク数:集約対象となる値のユニーク数を集約した結果とします。
    • 個数:集約対象となる行の数を集約した結果とします。

指定できる集約方法は項目のデータタイプによって異なります。 数値型項目のみ合計・平均を指定できます。

数値

数値型について、カスタムモードで扱える数値は有効桁数が6桁となります。6桁を超える数値は丸められる可能性があります。
 例1: 1.1111111 → 1.11111
 例2: 1234567 → 1234570

数値を四捨五入

数値を指定された桁で四捨五入します。欠損値は無視されます。

数値をビンに分割

数値型項目を指定した数の区画(ビン数)に分割します。 ただし、ビン数が数値型項目のユニーク数を上回る場合はユニーク数よりも小さいビン数を自動的に指定します。

数値を閾値で二値化

数値型項目が指定した閾値以上かどうか判定した結果を記録します。

数値に指定した演算を適用

数値に指定した演算を適用します。平方根は0以上の数値のみ計算されます。 自然対数は0より大きい数値のみ計算されます。 範囲外の数値は欠損として処理されます。

数値の欠損を補完

数値型項目の欠損を補完します。

  • 空文字を0として扱う:欠損している箇所をすべて0にします
  • 項目の平均値で補完する:その項目の平均値を求めて、平均値で欠損を補完します
  • 項目の中央値で補完する:その項目の中央値を求めて、中央値で欠損を補完します
  • 前後の値を使って補完する:欠損の上下の値をもとに線形補完します

文字列

数値や文字列を置換

完全一致する文字列や数値を指定した値に置き換えます

文字列の欠損を補完

文字列型の項目の欠損(空白となっている箇所)を補完します。

  • 出現回数がもっとも多い文字列で補完する:加工対象となっている項目でもっとも出現回数が多い文字列で補完します。
  • 出現回数がもっとも少ない文字列で補完する:加工対象となっている項目でもっとも出現回数が少ない文字列で補完します。
  • 空白セルの付近の文字列を使って補完する:欠損となっている箇所の上のセルの値を使って補完をします。上のセルがすべて欠損している場合は、下のセルの値を使って補完をします。
  • 指定した文字列で補完する:欠損となっている箇所に指定した文字列を入力します。

文字列から数値を抽出

文字列・テキスト型の項目から数値を抽出します。

  • デフォルト:文字列を先頭から順番に見て一番はじめに出現した数値を読み取ります。
    • 例:「1番地301号室」→「1」と読み取り
  • 「△」と「▲」をマイナスとして扱う:文字列中の△・▲の記号をマイナスとして読み取ります。
    • 例:「▲100.0千円」→「-100.0」と読み取り

テキスト

テキスト型の項目は予測モデル学習時に形態素解析が自動的に行われます。

テキストから県市町村を抽出

住所が記録されているテキスト型の項目から、都道県名・市町村名を抽出した項目を作成します。 テキストは必ず都道府県名で始まっている必要があります。また、5文字以上の市町村名や「市」・「町」・「村」が市町村の名前に含まれている場合は抽出に失敗する場合があります。

データ結合

データ結合をする際に、複数の行をどのように集約するかを指定します。

  • 集約方法:合計・平均・先頭の値・ユニーク数・個数を指定できます。
  • 合計:数値の合計を集約した結果とします。
  • 平均:数値の平均を集約した結果とします。
  • 先頭の値:集約する際に、一番はじめに出現した値を集約した結果とします。
  • ユニーク数:集約対象となる値のユニーク数を集約した結果とします。
  • 個数:集約対象となる行の数を集約した結果とします。
このページの情報は役に立ちましたか?