Commit 98777b52 authored by zhanggezhong's avatar zhanggezhong
Browse files

Update README.md

parent 9a67d919
# <div align="center"><strong>TorchAudio</strong></div> # <div align="center"><strong>TorchAudio</strong></div>
## 简介 ## 简介
torchaudio 的目标是将 PyTorch 应用于音频领域。通过支持 PyTorch,torchaudio 遵循了相同的理念,即提供强大的 DCU 加速,注重通过 autograd 系统实现可训练的特性,并保持一致的风格(张量命名和维度命名)。因此,它主要是一个机器学习库,而不是一个通用的信号处理库。PyTorch 的优势在 torchaudio 中得以体现,所有计算都通过 PyTorch 操作完成,这使得它易于使用,并且像 PyTorch 的自然扩展。
torchaudio 的目标是将 PyTorch 应用于音频领域。通过支持 PyTorch,torchaudio 遵循了相同的理念,即提供强大的 DCU 加速,注重通过 autograd 系统实现可训练的特性,并保持一致的风格(张量命名和维度命名)。因此,它主要是一个机器学习库,而不是一个通用的信号处理库。PyTorch 的优势在 torchaudio 中得以体现,所有计算都通过 PyTorch 操作完成,这使得它易于使用,并且像 PyTorch 的自然扩展。torchaudio官方github地址:[GitHub - pytorch/audio: Data manipulation and transformation for audio signal processing, powered by PyTorch](https://github.com/pytorch/audio)
- 支持音频输入输出(加载文件,保存文件)
- 使用 SoX 将各种音频格式(如 wav、mp3、ogg、flac、opus、sphere)加载到 PyTorch 的张量中。
- 支持 Kaldi(ark/scp)格式。
- 数据加载器
- 提供常见音频数据集的数据加载器。
- 音频与语音处理功能
- 强制对齐(forced_align)。
- 常用音频变换
- 提供如频谱图、AmplitudeToDB、MelScale、MelSpectrogram、MFCC、MuLaw 编码与解码、重采样等常用的音频变换。
- 兼容性接口
- 通过 PyTorch 运行与其他库(如 Kaldi)对齐的代码,包括频谱图、fbank、MFCC 等功能。
## 安装 ## 安装
组件支持组合
### 适用环境 | PyTorch版本 | fastpt版本 |audio版本 | DTK版本 | Python版本 | 推荐编译方式 |
| ----------- | ----------- | ----------- | ------------------------ | -----------------| ------------ |
- ubuntu20.04 或 rocky8.6 | 2.5.1 | 2.1.0 |2.5.1 | >= 25.04 | 3.8、3.10、3.11 | fastpt不转码 |
| 2.4.1 | 2.0.1 |2.4.1 | >= 25.04 | 3.8、3.10、3.11 | fastpt不转码 |
| 其他 | 其他 | 其他 | 其他 | 3.8、3.10、3.11 | hip转码 |
- Python==3.10 + pytorch版本大于2.4.1 && dtk版本大于25.04 推荐使用fastpt不转码编译。
- PyTorch==2.5.1 DTK=25.04 ### 1、使用pip方式安装
audio whl包下载目录:[光和开发者社区](https://download.sourcefind.cn:65024/4/main),选择对应的pytorch版本和python版本下载对应audio的whl包
### 使用pip方式安装
```shell ```shell
pip install torchaudio* # (请下载对应操作系统的torchaudio的whl包) pip install torch* (下载torch的whl包)
pip install fastpt* --no-deps (下载fastpt的whl包)
source /usr/local/bin/fastpt -E
pip install audio* (下载的audio-fastpt的whl包)
``` ```
### 2、使用源码编译方式安装
### 源码编译安装
#### 编译环境准备 #### 编译环境准备
提供基于fastpt不转码编译:
- 拉取torchaudio代码 1. 基于光源pytorch基础镜像环境:镜像下载地址:[光合开发者社区](https://sourcefind.cn/#/image/dcu/pytorch),根据pytorch、python、dtk及系统下载对应的镜像版本。
2. 基于现有python环境:安装pytorch,fastpt whl包下载目录:[光合开发者社区](https://sourcefind.cn/#/image/dcu/pytorch),根据python、dtk版本,下载对应pytorch的whl包。安装命令如下:
```shell ```shell
git clone -b v2.5.1-hcu http://developer.hpccube.com/codes/OpenDAS/torchaudio.git pip install torch* (下载torch的whl包)
pip install fastpt* --no-deps (下载fastpt的whl包, 安装顺序,先安装torch,后安装fastpt)
pip install setuptools==59.5.0 wheel
``` ```
- 导入环境变量以及安装必要依赖库 #### 源码编译安装
安装fastpt-2.1.0版本, cmake 版本要求3.19.0 源码编译安装要求cmake版本不要过高,推荐版本cmake3.19.0
- 代码下载
```shell ```shell
source /usr/local/bin/fastpt -c git clone http://developer.sourcefind.cn/codes/OpenDAS/torchaudio.git # 根据编译需要切换分支
使用audio时执行
```shell
source /usr/local/bin/fastpt -e
``` ```
- 提供2种源码编译方式(进入torchaudio目录):
#### 编译安装
- 执行编译命令并安装
```shell
python3 setup.py bdist_wheel
pip install dist/torchaudio*
``` ```
1. 设置不转码编译环境变量
source /usr/local/bin/fastpt -C
## 版本号查询 2. 编译whl包并安装
python3 setup.py -v bdist_wheel
pip install dist/audio*
```shell 3. 源码编译安装
python -c "import torchaudio; print(torchaudio.__version__)" python3 setup.py install
``` ```
#### 注意事项
+ 若使用pip install下载安装过慢,可添加pypi清华源:-i https://pypi.tuna.tsinghua.edu.cn/simple/
+ ROCM_PATH为dtk的路径,默认为/opt/dtk
+ 在pytorch2.5.1环境下编译需要支持c++17语法,打开setup.py文件,把文件中的 -std=c++14 修改为 -std=c++17
- 版本号与官方版本同步,查询该软件的版本号,例如2.5.1; ## 验证
- python -c "import torchaudio; print(torchaudio.__version__)",版本号与官方版本同步,查询该软件的版本号,例如2.5.1;
## Known Issue ## Known Issue
- -
## 其他参考 ## 参考资料
- [README_ORIGIN](README_ORIGIN.md) - [README_ORIGIN](README_ORIGIN.md)
- [README_zh-CN](README_zh-CN.md)
- [GitHub - pytorch/audio](https://github.com/pytorch/audio) - [https://github.com/pytorch/audio](https://github.com/pytorch/audio)
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment