当今物体检测的障碍是什么？

问题描述投票：0回答：1

我读过有关 Faster RCNN 和 RFCN 的论文，也读过 YOLO。看来最大的问题是速度？并且它们都仅使用图像数据。有没有结合文本和图像数据的模型？这意味着当训练数据较小时，我们可以使用文本中的信息来帮助检测。例如，当训练数据较小时，模型无法清楚地分辨出狗和猫，但模型可以告诉该物体附近有一根骨头，并且模型从文本中获取一些信息，表明骨头附近的物体很可能是狗，因此模型现在可以分辨出该物体是什么。这种算法存在吗？

nlp

computer-vision

object-detection

1个回答

0
投票

您似乎主要参考了用于对象检测的深度网络的研究。在深度网络成功之前，研究人员一直在寻找使用具有图像特征的文本来实现与您类似的想法的可能性。您可能需要参考 ACM Multimedia 和 IEEE TMM 的论文，尤其是 2014 年之前的论文。

问题在于这些方法的性能不如仅使用图像的最简单的深度网络。有一些将图像和文本结合起来的工作，例如this paper。我确信至少有一些研究人员已经在研究这个问题了。

当今物体检测的障碍是什么？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1