我一直试图解决一个问题,我需要通过多个摄像机视角实时跟踪多个人。我在DukeMTMC数据集上找到了DeepCC(https://github.com/daiwc/DeepCC)解决方案,但不幸的是,由于数据机密性问题,该解决方案已被删除。他们使用Fast R-CNN进行目标检测,使用三重态损失进行重新识别,使用DeepSort进行实时多目标跟踪。
问题:1.有人可以针对同一问题共享其他资源吗?2.是否可以下载并仍将DukeMTMC数据库用于多重跟踪问题?3.有人知道何时可以再次使用官方网站(http://vision.cs.duke.edu/DukeMTMC/)吗?
请随时提供不同的问题形式:)
我过去使用的一个很好的深度学习库称为Mask R-CNN,或Mask Regions-卷积神经网络。尽管我只在图像而不是视频上使用了该算法,但是应用了相同的原理,并且很容易过渡到视频中的检测对象。该算法使用Tensorflow和Keras,您可以在其中将输入数据(即人的图像)分为两组,即训练和验证。
为了进行培训,请使用诸如via之类的第三方软件来注释图像中的人物。绘制注释后,您将导出带有所有注释的JSON文件,该文件将用于训练过程。在验证阶段执行相同的操作,BUT确保算法之前没有看到验证中的图像。
一旦您对两个组都进行了注释,并生成了带有两个组的注释的JSON文件,您就可以开始训练算法。 Mask R-CNN使训练变得非常容易,您需要做的就是传递一行命令来启动它。如果要在GPU而不是CPU上训练数据,请安装Nvidia's CUDA,它在受支持的GPU上非常有效,并且安装后不需要编码。
在培训阶段,您将生成权重文件,这些文件以.h5格式存储。根据您选择的时期数,每个时期都会生成一个权重文件。培训结束后,您只需在想要检测相关对象的任何时间(即在视频供稿中)都引用该权重文件。
一些重要信息:
老实说,过去对我来说最困难的部分不是使用算法,而是找到合适的Tensorflow,Keras和CUDA版本,它们相互之间可以很好地发挥作用,并且不会出错。尽管上述版本可以使用,但请尝试查看是否可以升级或降级某些库,以查看是否可以获得更好的结果。
有关带视频的Mask R-CNN的文章,我发现它非常有用且足智多谋。
https://www.pyimagesearch.com/2018/11/19/mask-r-cnn-with-opencv/
GitHub仓库可以在下面找到。