README.md 2.65 KB
Newer Older
Sugon_ldc's avatar
Sugon_ldc committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
# Conformer_PyTorch

## 模型介绍

Conformer模型是一种基于自注意力机制(self-attention)的序列建模方法,被广泛应用于语音识别、语言建模、机器翻译、语义分析等自然语言处理任务中。本工程使用的是wenet工具包来调用conformer模型。

Wenet是一个开源的端到端语音识别(ASR)工具包,基于PyTorch实现,旨在提供一个简单、高效、灵活的ASR框架,帮助研究人员和开发者快速构建自己的语音识别系统。

Wenet的核心架构是基于端到端的深度神经网络(DNN)和自注意力机制(self-attention)实现的,其中包含了多种不同的模型结构和技术,如Conformer、Transformer、LSTM-TDNN等,可根据不同的任务需求进行选择。此外,Wenet还提供了一系列的工具和接口,方便用户进行模型的训练、推理、评估等操作,支持多种硬件平台和操作系统,如CPU、GPU、FPGA等。

## 模型结构



## 数据集

使用的数据集为Aishell,Aishell是北京壳牌壳牌科技有限公司发布的开源中文普通话语音语料库。来自中国不同口音地区的400人被邀请参加录音,这是在一个安静的室内环境中进行的,使用高保真麦克风,并将采样降至16kHz。人工抄写准确率95%以上,经过专业的语音标注和严格的质量检测。这些数据对学术使用是免费的。我们希望为语音识别领域的新研究者提供适量的数据。

数据集下载地址:http://openslr.org/33/



## 训练及推理

### 环境配置

在光源可拉取训练的docker镜像,本工程推荐的镜像如下:

docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.10.0-centos7.6-dtk-22.10-py38-latest

进入镜像后需要安装所需的三方依赖

```
pip3 install typeguard==2.13.3
```

### 数据预处理

```
cd ./examples/aishell/s0
#设置stage为0会自动下载数据集,若有下载好的数据集,可手动设置run.sh脚本中的data路径即可省去下载过程
bash run.sh --stage 0 --stop_stage 0

bash run.sh --stage 1 --stop_stage 1

bash run.sh --stage 2 --stop_stage 2

bash run.sh --stage 3 --stop_stage 3
```

### 训练

```
bash train.sh
```

### 推理

训练结束后,模型会保存在exp/conformer/final.pt路径下,可以直接执行如下指令查看推理结果(若需要使用其他预训练模型,请手动修改)

```
bash validate.sh
```

## 模型精度数据

| 卡数 |  精度   |
| :--: | :-----: |
| 4卡  | 93.1294 |



## 源码仓库及问题反馈

http://developer.hpccube.com/codes/modelzoo/conformer_pytorch.git