不平衡张量流模型的权重策略

问题描述 投票:0回答:2

我想从不平衡数据集中训练一个张量流DNNClassifier模型。每个样本都有一个“质量”值,该值表示样本的相对相关性。我认为我可以用权重来表示这种相关性。我读过权重功能乘以损失。在这种情况下,“好”样品的重量可能较低。准确吗?

tensorflow classification weighted
2个回答
0
投票

您所说的“好样本”是什么意思?在不平衡的情况下,您将有两种样本,它们的数量更多而数量更少。

多一些的权重应该减小,而少一些的权重应该增加。我们基本上是通过扩大损失来使模型更多地关注少量样本。


0
投票

正如Pankaj Kabra正确指出的那样,不清楚“好”样本的含义。如果您想给他们更多的重要性,您应该给这些例子更多的权重。相反,如果这些是数量最多的样本,并且您不希望网络仅因为样本数量过多而偏向于它们,那么您就需要对它们进行加权。

最经典的方法有两种:

  1. 根据类别,按样本重量损失乘以多。这意味着如果您要评估更多类别的损失,则必须将其值乘以较小的权重;反之亦然,如果您要处理的课程最小,那么权重必须更大。例如,您可以使用按以下公式计算的权重:w_class = 1.0/(number_of_samples_for_this_class)
  2. 样本均衡的迷你批次,两个类别的数字相同。
© www.soinside.com 2019 - 2024. All rights reserved.