AudioFly

AudioFly 是一个音频生成模型。它根据文本描述合成音效。该模型可以以 44.1 kHz 的采样率生成高质量音频。生成的音频与提示文本有很强的一致性。 AudioFly 采用了潜在扩散模型架构。该模型拥有 10 亿个参数，并在大量多样化的语料库上进行了训练。训练数据包括开源数据集，如 AudioSet、AudioCaps 和 TUT，以及专有的内部数据。该模型在单一事件和多事件场景中表现良好。