如何将标题信息添加到 wav 文件以获得与 ffmpeg 相同的结果？

Question

我正在尝试使用 Fastspeech 生成一个 .wav 文件。当我将数据保存为 .pcm 文件，并通过 ffmpeg 将其传输到 .wav 时，它运行良好。但是当我只是添加一个 wav 标头信息并将其保存到 .wav 时，听起来很嘈杂，我的代码有什么问题？

pcm代码：

    wav = wav.astype(np.float32)
    wav = wav.tostring()
    with open('test.pcm', 'wb') as f:
        f.write(wav)

ffmpeg 命令：

ffmpeg -f f32le -ar 16000 -i test.pcm file.wav  # works well

直接写wav：

import struct

def pcm2wav(sample_rate, pcm_voice):
    if pcm_voice.startswith("RIFF".encode()):
        return pcm_voice
    else:
        sampleNum = len(pcm_voice)
        rHeaderInfo = "RIFF".encode()
        rHeaderInfo += struct.pack('i', sampleNum + 44)
        rHeaderInfo += 'WAVEfmt '.encode()
        rHeaderInfo += struct.pack('i', 16)
        rHeaderInfo += struct.pack('h', 1)
        rHeaderInfo += struct.pack('h', 1)
        rHeaderInfo += struct.pack('i', sample_rate)
        rHeaderInfo += struct.pack('i', sample_rate * int(32 / 8))
        rHeaderInfo += struct.pack("h", int(32 / 8))
        rHeaderInfo += struct.pack("h", 32)
        rHeaderInfo += "data".encode()
        rHeaderInfo += struct.pack('i', sampleNum)
        rHeaderInfo += pcm_voice
        return rHeaderInfo

# .......
# get data with FastSpeech model
wav = wav.astype(np.float32)
wav = wav.tostring()
wav = pcm2wav(16000, wav)
with open('test.wav', 'wb') as f:
    f.write(wav)   # many noisy sounds

Answer 1

我问了这个问题，终于解决了。我将第一个

struct.pack('h', 1)

替换为

struct.pack('h', 3)

并且它有效。

我发现

scipy.io.wavfile.write

可以生成一个很好的wav文件。然后我在这个函数的源码中得到了答案

if dkind == 'f':
    format_tag = WAVE_FORMAT_IEEE_FLOAT  # WAVE_FORMAT_IEEE_FLOAT=3
else:
    format_tag = WAVE_FORMAT_PCM  # WAVE_FORMAT_PCM=1
# ...
fmt_chunk_data = struct.pack('<HHIIHH', format_tag, channels, fs,
                                 bytes_per_second, block_align, bit_depth)

我的数据是float32类型，所以它的format_tag应该是3，而不是1。

Answer 2

我找到了一个非常好的解决方案，它不涉及您自己的标头中的“黑客攻击”。

您可以继承 pydub.AudioSegment 并覆盖 export() 方法以保存到 io.BytesIO 流而不是实际文件。

# Original slice of AudioSegment.export()

if format == "raw" and (codec is not None or parameters is not None):
      raise AttributeError(
              'Can not invoke ffmpeg when export format is "raw"; '
              'specify an ffmpeg raw format like format="s16le" instead '
              'or call export(format="raw") with no codec or parameters')

  out_f, _ = _fd_or_path_or_tempfile(out_f, 'wb+')
  
# Updated code

  if format == "raw" and (codec is not None or parameters is not None):
      raise AttributeError(
              'Can not invoke ffmpeg when export format is "raw"; '
              'specify an ffmpeg raw format like format="s16le" instead '
              'or call export(format="raw") with no codec or parameters')

  out_f = io.BytesIO()

这将允许您正常使用 AudioSegment 而无需保存到文件。

如何将标题信息添加到 wav 文件以获得与 ffmpeg 相同的结果？

问题描述投票：0回答：2

2个回答

最新问题

如何将标题信息添加到 wav 文件以获得与 ffmpeg 相同的结果？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2