関連データの結合キー項目値に重複が発生するデータ関係の他の例を以下の表に挙げます。
関連データの結合キー項目値に重複がある場合、結合例1のように項目をそのままコピーをする事によって横結合を行うことは得策ではありません。
結合キーが重複する関連データのうち、いずれか一つの行をそのままコピーすることになり、残りの行の情報が結合データから失われてしまうためです。
Prediction One では、結合キーが重複する行について、項目値の平均やユニーク数などのさまざまな集計方法により、なるべく多くの関連データの情報を結合データへまとめ上げます。
集計方法は、結合後データの項目数が行数を大きく超えない様に、Prediction One により自動で決定されます。
下の例では、会社売上.csv
と社員情報.csv
は結合キー項目「会社 ID」によって関連付けられており、関連データのキー項目値に重複があります。
データ結合により、予測モデル作成(学習)用データには関連データの各項目から集計された項目「社員名の数」「社員年齢の平均」などが追加されます。
Prediction One では、重複のある横結合を実行する関連データには、表示欄の下部に「追加項目の確認」ボタンが現れます。クリックすることで、追加生成される項目の候補を事前に確認できます。
また、「表形式で確認する」ボタンからも関連データに対応して追加生成される項目の候補を確認できます。