什么是vggish_model.ckpt和vggish_pca_params.npz

问题描述 投票:0回答:1

我试图了解音频分类的某些方面,并由“ vggish_model.ckpt”和“ vggish_pca_params.npz”提供。我试图对这两个有一个很好的了解。它们是tensorflow或Google音频集的一部分吗?为什么在构建音频功能时需要使用它们?我看不到任何有关它们的文档!

tensorflow artificial-intelligence feature-extraction
1个回答
0
投票

AudioSet发布的预先计算的功能是来自深层网络的“嵌入”,经过训练可以预测音轨中的视频级标签(请参见https://arxiv.org/abs/1609.09430)。嵌入层通过PCA进一步处理以减小尺寸;包含此处理是为了使功能与https://research.google.com/youtube8m/中发布的功能兼容。因此,vggish_model.ckpt给出了类似VGG的深CNN的权重,该权重用于根据mel频谱图补丁计算嵌入,而vggish_pca_params.npz给出了PCA转换的基础。

© www.soinside.com 2019 - 2024. All rights reserved.