# AudioFly ## 论文 暂无 ## 模型简介 AudioFly 是一个音频生成模型。它根据文本描述合成音效。该模型可以以 44.1 kHz 的采样率生成高质量音频。生成的音频与提示文本有很强的一致性。 AudioFly 采用了潜在扩散模型架构。该模型拥有 10 亿个参数,并在大量多样化的语料库上进行了训练。训练数据包括开源数据集,如 AudioSet、AudioCaps 和 TUT,以及专有的内部数据。该模型在单一事件和多事件场景中表现良好。在这两种情况下,生成的音频都能准确反映所描述的内容。在 AudioCaps 数据集上,AudioFly 的性能优于之前的音频生成模型。 ## 环境依赖 | 软件 | 版本 | | :------: | :------: | | DTK | 26.04 | | Python | 3.10 | | Transformers | 4.56.1 | | vLLM | 0.18.1+das.dtk2604 | **推荐使用镜像:** harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.18.1-ubuntu22.04-dtk26.04-py3.10-20260528-iflytek - 挂载地址`-v` 根据实际模型情况修改 ```bash docker run -it \ --shm-size 60g \ --network=host \ --name audiofly \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.18.1-ubuntu22.04-dtk26.04-py3.10-20260528-iflytek bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。 其它环境配置说明: ```bash #下载模型以后,替换下载路径内的文件 cp PixArt_blocks.py AudioFly/ldm/modules/diffusionmodules/PixArt_blocks.py cp PixArt.py AudioFly/ldm/modules/diffusionmodules/PixArt.py ``` ## 预训练权重 **请根据`支持的DCU型号`选择对应模型下载,FP8模型仅在BW1100/BW1101上支持,其他型号请勿使用!** | 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 | 下载地址 | | :------: | :------: | :------: | :------------: | :----------: | :------: | | AudioFly | 1B | BF16 | BW1000 | 1 | [ModelScope](https://modelscope.cn/models/iflytek/AudioFly) | ## 数据集 暂无 ## 训练 暂无 ## 推理 ### Pytorch #### 单机推理 ```bash cd AudioFly python run.py ``` ## 效果展示 输入: 'Fierce winds howl through the valley' 输出: ### 精度 DCU与GPU精度一致,推理框架:pytorch ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/audiofly ## 参考资料 - https://modelscope.csdn.net/68da3b11a6dc56200e8ae2ae.html - https://modelscope.cn/models/iflytek/AudioFly