ffmpeg mp3 块到 wav 块会在音频开头添加间隙

问题描述 投票:0回答:1

我有一个来自 URL 的 mp3 流,我将块保存在 1024 字节缓冲区大小中。 获得所有块后,我使用

ffmpeg
将传入的 mp3 块(22050 单声道)转换为 wav 块。

当我打开/播放 wav 块时,我发现每个块的开头都有一个空白。

这是我在 Python 子进程中为所有保存的块循环运行的代码

subprocess.run(["ffmpeg", "-i",
    f"{Path.cwd()}/input/{path}",
    f"{Path.cwd()}/temp_output/{path.replace('.mp3', '')}.wav"
])

这是终端中的输出

processing: test-016.mp3
ffmpeg version 6.0 Copyright (c) 2000-2023 the FFmpeg developers
  built with Apple clang version 15.0.0 (clang-1500.0.40.1)
  configuration: --prefix=/usr/local/Cellar/ffmpeg/6.0_1 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags='-Wl,-ld_classic' --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-audiotoolbox
  libavutil      58.  2.100 / 58.  2.100
  libavcodec     60.  3.100 / 60.  3.100
  libavformat    60.  3.100 / 60.  3.100
  libavdevice    60.  1.100 / 60.  1.100
  libavfilter     9.  3.100 /  9.  3.100
  libswscale      7.  1.100 /  7.  1.100
  libswresample   4. 10.100 /  4. 10.100
  libpostproc    57.  1.100 / 57.  1.100
[mp3 @ 0x7fd48e104480] Format mp3 detected only with low score of 25, misdetection possible!
[mp3 @ 0x7fd48e104480] Skipping 463 bytes of junk at 0.
[mp3 @ 0x7fd48e104480] Estimating duration from bitrate, this may be inaccurate
Input #0, mp3, from '/Users/mayur/Projects/input/test-016.mp3':
  Duration: 00:00:00.39, start: 0.000000, bitrate: 169 kb/s
  Stream #0:0: Audio: mp3, 22050 Hz, mono, fltp, 160 kb/s
Stream mapping:
  Stream #0:0 -> #0:0 (mp3 (mp3float) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, wav, to '/Users/mayur/Projects/temp_output/test-016.wav':
  Metadata:
    ISFT            : Lavf60.3.100
  Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 22050 Hz, mono, s16, 352 kb/s
    Metadata:
      encoder         : Lavc60.3.100 pcm_s16le
size=      17kB time=00:00:00.36 bitrate= 379.7kbits/s speed= 253x    
video:0kB audio:17kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.451389%

我也尝试了 pydub 并遇到了类似的问题。

python-3.x ffmpeg audio-streaming ffmpeg-python
1个回答
0
投票

音频压缩算法一次对单个数据块进行操作。一个压缩数据块被解压缩到固定持续时间的原始数字音频数据的缓冲区中。这些块在不同的上下文中被称为数据包、样本或访问单元。 ffmpeg 将它们称为数据包。对于 MP3 和类似的有损压缩策略,输入块的大小会因音频的性质和压缩级别而变化。使用 CBR 压缩,与 VBR 相比,大小变化较小,但块的大小仍然不是恒定的。

您的方法所发生的情况是,1024 字节的固定输入缓冲区大小与数据包边界不相符。数据包在缓冲区边界上被分割。当 ffmpeg 从流中间生成缓冲区时,它必须向前跳到找到下一个数据包的开头。跨越缓冲区边界的数据包正在丢失,因为它无法解码部分数据包。

MP3 使用魔术字节序列来标记新数据包的开始:0xFF 0xFB。为了不丢失数据,您需要找到前一个缓冲区中的最后一个 0xFF 0xFB,并将从那里到缓冲区末尾的所有数据复制到下一个缓冲区的开头。

尽管如此,您的音频听起来仍然不正确。对于几乎所有音频压缩策略,第一个数据包之后的每个数据包都依赖于前一个数据包的一些信息,以便听起来正确。解码器保存前一个数据包中的一些信息,并在解码下一个数据包时使用该信息。因为您从每个缓冲区生成单独的 ffmpeg 进程,所以前一个数据包的信息会丢失。这会导致 WAV 文件的开头在播放时有时听起来有点错误。

您真正需要做的是将新缓冲区附加到单个流上,并让单个 ffmpeg 进程解码整个内容。我假设您想在解码时执行此操作,因此您可能不只是想下载整个内容然后立即解码。我认为 ffmpeg 可以从一些进程间和网络源进行解码。也许您可以生成 ffmpeg 进程,然后将字节附加到管道或本地网络端口。

© www.soinside.com 2019 - 2024. All rights reserved.