データ結合における追加項目とは、データを横結合するときに、関連データを用いて新たに生成される項目のことです。
Prediction One では、関連データの結合キー項目値に重複がある場合、結合キーが重複する行について、項目値の平均やユニーク数などのさまざまな集計方法により、関連データの情報を結合データへまとめ上げます。 集計方法の数は、結合後データの項目数が行数を大きく超えない様に、Prediction One により自動で決定されます。
Prediction One では、集計方法は、結合後データの項目数が行数を大きく超えない様に、以下の集計方法群の中から自動で選択されます。
関連データの結合キー項目値に重複がある場合、関連データ項目のデータタイプ別に設定された集計方法候補の中から選択されます。
関連データ項目の型 | 集計方法の候補 |
---|---|
数値型 | 個数, 平均, 最大値, 最小値 |
文字列型 | ユニーク数, 最頻値 |
日時型 | 最大値, 時間間隔平均 |
テキスト型 | 文字数の平均 |
※個数とは、モデル作成用データのある結合キー項目値に対応する関連データの行数のことを指します。
関連データの結合キー項目値に重複があり、且つ関連データにデータタイプが「日時」である項目が存在する場合、時間情報を利用した集計方法が更に追加されます。
関連データ項目の型 | 集計方法の候補 |
---|---|
数値型 | もっとも古い値, 最新値 |
文字列型 | もっとも古い値, 最新値 |
日時型 | (なし) |
テキスト型 | もっとも古い値, 最新値 |
データタイプが日時である項目を用いた集計方法により作成された項目は、
「【関連データ項目名】の【集計方法名】(【日時項目名】)」
というフォーマットに従い命名されます。
データ結合についての説明は、データ結合も参照してください。