机器学习：以连续数组作为输入、标量分类变量作为输出的分类技术

Question

如果您对以下内容有任何想法，那就太好了。

假设对于给定的数据集：T 和 Y 是数组，其中 T = [0 1 2 3 5 6 7] Y= [4 7 9 3 6 1] 所以在 T=0，Y=4 时，依此类推 Z = [红色] Z 中只有一个元素。T 和 Y 是连续输入。 Z 离散（可以是红色或黄色）。

另一个给定集合：T = [1 3 4 9 3] Y= [4 9 2 1 6] Z=[黄色]

假设我有很多相似的集合，我可以使用什么分类技术来探索以 T 和 Y 作为连续数组输入并输出单个元素的分类 Z 的关系？

我有点困惑，因为输入本身是数组，而输出只是单个元素

Answer 1

将模型的输出放入分类输出的分类本身只是一个放置在模型原始输出末尾的函数。这是一个非常巧妙的小“技巧”，很多正在学习或只是玩玩的人可能没有注意到。

机器学习归结为寻找表示数据的方法，以便机器可以读取它，否则它如何学习？这意味着它必须是数字。

使用您的案例，您的模型将被告知两个输入特征是 T 和 Y，已经是数字了，太棒了！但输出是一个分类值，因此我们需要调整机器认为的值。因为我们有两个选择，所以我们可以说

Red=0

和

Yellow=1

。

好了，现在你的模型知道如何输出结果，你可以使用这些调整来训练它，当模型输出

的答案时，你可以在最后添加一个额外的函数，它会自动知道

Yellow=1

，模型不必知道。

实际上，它实际上应该返回2个数字。本质上是对每种颜色加到 1 的可能性的预测。因此模型的输出将是

[0.25,0.75]

，然后我们可以说模型更有信心它是黄色，所以我们采取正如预测。

通过这样做，你已经将一切都归结为数字，因此技术取决于你。实际上，数据分布和任务类型（这里是二元分类任务，因为只有 2 个输出选项）会影响哪些技术最有效或最实用。