README.md 2.86 KB
Newer Older
weishb's avatar
weishb committed
1
# AudioFly
weishb's avatar
weishb committed
2
3
## 论文
暂无
weishb's avatar
weishb committed
4

weishb's avatar
weishb committed
5
## 模型简介
weishb's avatar
weishb committed
6
AudioFly 是一个音频生成模型。它根据文本描述合成音效。该模型可以以 44.1 kHz 的采样率生成高质量音频。生成的音频与提示文本有很强的一致性。
weishb's avatar
weishb committed
7
8
9
10
11
12
13
14
15
16
17

AudioFly 采用了潜在扩散模型架构。该模型拥有 10 亿个参数,并在大量多样化的语料库上进行了训练。训练数据包括开源数据集,如 AudioSet、AudioCaps 和 TUT,以及专有的内部数据。该模型在单一事件和多事件场景中表现良好。在这两种情况下,生成的音频都能准确反映所描述的内容。在 AudioCaps 数据集上,AudioFly 的性能优于之前的音频生成模型。

## 环境依赖
| 软件 | 版本 |
| :------: | :------: |
| DTK | 26.04 |
| Python | 3.10 |
| Transformers | 4.56.1 |
| vLLM | 0.18.1+das.dtk2604 |

weishb's avatar
weishb committed
18
**推荐使用镜像:** harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.18.1-ubuntu22.04-dtk26.04-py3.10-20260528-iflytek
weishb's avatar
weishb committed
19
20
21
22
23
24

- 挂载地址`-v` 根据实际模型情况修改
```bash
docker run -it \
    --shm-size 60g \
    --network=host \
25
    --name audiofly \
weishb's avatar
weishb committed
26
27
28
29
30
31
32
33
34
35
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
weishb's avatar
weishb committed
36
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.18.1-ubuntu22.04-dtk26.04-py3.10-20260528-iflytek bash
weishb's avatar
weishb committed
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。


其它环境配置说明:
```bash
#下载模型以后,替换下载路径内的文件
cp PixArt_blocks.py AudioFly/ldm/modules/diffusionmodules/PixArt_blocks.py
cp PixArt.py AudioFly/ldm/modules/diffusionmodules/PixArt.py
```

## 预训练权重

**请根据`支持的DCU型号`选择对应模型下载,FP8模型仅在BW1100/BW1101上支持,其他型号请勿使用!**

| 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 | 下载地址 |
| :------: | :------: | :------: | :------------: | :----------: | :------: |
| AudioFly | 1B | BF16 | BW1000 | 1 | [ModelScope](https://modelscope.cn/models/iflytek/AudioFly) |

## 数据集

暂无

## 训练

暂无

## 推理

### Pytorch

#### 单机推理

```bash
cd AudioFly
python run.py
```

## 效果展示

输入:

'Fierce winds howl through the valley' 

输出:

<audio controls src="./doc/result.wav"></audio>

### 精度
DCU与GPU精度一致,推理框架:pytorch

## 源码仓库及问题反馈

- https://developer.sourcefind.cn/codes/modelzoo/audiofly

## 参考资料
- https://modelscope.csdn.net/68da3b11a6dc56200e8ae2ae.html
- https://modelscope.cn/models/iflytek/AudioFly