美国有线电视新闻网是否可以学习比某些特色频道更重要的功能？

这是一个假设的问题。

假设

我正在开发一个2级语义分段任务
我的基本事实是二元面具
批量大小为1
在我的网络中的任意点，有一个名为'conv_5'的卷积层，其特征映射大小为90 x 45 x 512。

让我们假设我也决定（在训练期间）我将地面真相掩码连接到'conv_5'。这将产生一个新的顶部，我们可以调用'concat_1'，它将是一个90 x 45 x 513维度的特征图。

假设网络的其余部分遵循正常模式，如更多的卷积层，完全连接和softmax损失。

我的问题是，完全连接的层能够学会对前512个特征通道进行非常低的权重，并将最后一个特征通道（我们知道这是一个完美的基础事实）称得非常高吗？

如果这是真的那么原则上是这样的，如果特征维度是1,000,000个通道并且我将最后一个通道添加为完美的基础事实，它仍然会学会有效地忽略所有以前的1,000,000个特征通道吗？

我的直觉是，如果有一个非常好的特征通道传入，那么网络应该能够学习比其他通道更多地利用这个通道。我还想认为这与频道数量无关。

（在实践中，我有一个场景，我传递了一个近乎完美的地面事实作为第513个特征图，但它似乎没有任何影响。然后当我检查所有513个特征通道的权重的大小时，大小在所有渠道中大致相同。这让我相信“近乎完美的面具”只被利用了它的潜力的1/513。这就是促使我提出问题的动机。）

2
投票

假设，如果你有一个“杀戮功能”，网络应该学会使用它并忽略其余功能的“噪音”。

顺便说一句，为什么使用完全连接的层进行语义分割？我不确定这是语义分段网络的“正常模式”。

什么可能阻止网络识别“杀戮功能”？ - "conv_5"上面的图层弄乱了：如果它们降低了分辨率（采样/汇集/跨步......），那么信息就会丢失，并且很难利用这些信息。具体来说，我怀疑完全连接的层可能会全局搞乱。 - 一个错误：添加“查杀功能”的方式与图像不对齐。是否添加了转置掩码，或者您错误地将一个图像的掩码添加到另一个图像（您是否“洗牌”训练样本？）

一个有趣的实验：您可以检查网络是否至少具有使用“查杀功能”的局部最佳权重：您可以使用net surgery手动设置权重，使得"conv_5"对于所有功能都为零，但“杀戮功能”和结果的权重层不是搞砸了。那么你应该具有非常高的准确性和低损失。从这一点开始训练网应该产生非常小的（如果有的话）梯度，并且即使在多次迭代之后，权重也不应该显着改变。

问题描述投票：2回答：1

1个回答

最新问题

美国有线电视新闻网是否可以学习比某些特色频道更重要的功能？

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1