データによっては、データタイプを適切なものに変更することで精度が改善する場合があります。
データタイプがテキストの場合は、内部的にそこに含まれる単語の出現頻度が予測モデルに使用されます。 ・東京都千代田区 → 東京 / 都 / 千代田 / 区 ・東京都港区 → 東京 / 都 / 港 / 区 ・神奈川県横浜市 → 神奈川 / 県 / 横浜 / 市
一方、データタイプが文字列の場合は、内部的に一文字でも違えば別のカテゴリとして予測モデルに使用されます。 ・東京都千代田区 → カテゴリ1 ・東京都港区 → カテゴリ2 ・神奈川県横浜市 → カテゴリ3 つまり、「東京都千代田区」と「東京都港区」は少し似ているが、「東京都千代田区」と「神奈川県横浜市」は全く似ていないと扱いたい場合は、テキストが適していますし、それぞれを全く別のものとして扱いたい場合は文字列が適しています。