如何处理二进制分类问题的多标签分类特征？

Question

我有类似的数据集：

   profile     category  target
0        1      [5, 10]       1
1        2          [1]       0
2        3   [23, 5000]       1
3        4  [700, 4500]       0

如何处理类别功能，此表可能还具有其他附加功能。一种热编码会导致占用过多空间，因为行数约为1000万。任何建议都会有所帮助。

Answer 1

我的想法是拆分此数组into new columns：

这将导致以下数据框：

   profile     0    1  target
0        1     5    10       1
1        2     1             0
2        3     23   5000       1
3        4     700  4500       0

在下一步中，您可以调整它，以this为基础，将类别归为要素（如果配置文件具有此类别，则以1填充，这将导致以下数据帧：

   profile     1  ...  5  ... 10 ... 23 target
0        1     0       1       0      0      1
1        2     1       0       0      0      0
2        3     0       0       0      1      1
3        4     0       0       0      0      0

您将具有所有类别的功能，可以为您提供帮助（这类似于文本分类问题）。然后，您可以使用某些技术来降低尺寸，例如pca。

使用这种方法，您会尊重类别的行为，以后可以通过一些数学技巧来减小维度。

如何处理二进制分类问题的多标签分类特征？

问题描述投票：0回答：1

1个回答

最新问题

如何处理二进制分类问题的多标签分类特征？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1