添加了必要内容和图片

53daae50 · shihm · 71a54953 · 53daae50 · 71a54953 · 53daae50
Commit 53daae50 authored Mar 05, 2026 by shihm
Showing with 86 additions and 91 deletions

README.md README.md +86 -80

README0.md README0.md +0 -11

example/ex.png example/ex.png +0 -0

example/vad_example.wav example/vad_example.wav +0 -0

fig/struct.png fig/struct.png +0 -0

No files found.
--- a/README.md
+++ b/README.md
---
-tasks:
- voice-activity-detection
-domain:
- audio
-model-type:
- VAD model
-frameworks:
- pytorch
-backbone:
- fsmn
-metrics:
- f1_score
-license: Apache License 2.0
-language: 
- cn
-tags:
- FunASR
- FSMN
- Alibaba
- Online
-datasets:
-  train:
-  - 20,000 hour industrial Mandarin task
-  test:
-  - 20,000 hour industrial Mandarin task
-widgets:
-  - task: voice-activity-detection
-    model_revision: v2.0.4
-    inputs:
-      - type: audio
-        name: input
-        title: 音频
-    examples:
-      - name: 1
-        title: 示例1
-        inputs:
-          - name: input
-            data: git://example/vad_example.wav 
-    inferencespec:
-      cpu: 1 #CPU数量
-      memory: 4096
---
-
-# FSMN-Monophone VAD 模型介绍
-
-[//]: # (FSMN-Monophone VAD 模型)
-
-## Highlight
+## FSMN语音端点检测-中文-通用-16k
+## 论文
+暂无
+
+## 模型简介
+FSMN-Monophone VAD是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，并将检测出来的有效音频片段输入识别引擎进行识别，减少无效语音带来的识别错误。
+<div align=center>
+    <img src=".fig/struct.png" alt="VAD模型结构"  width="500" />
+</div>
+SMN-Monophone VAD模型结构如上图所示：模型结构层面，FSMN模型结构建模时可考虑上下文信息，训练和推理速度快，且时延可控；同时根据VAD模型size以及低时延的要求，对FSMN的网络结构、右看帧数进行了适配。在建模单元层面，speech信息比较丰富，仅用单类来表征学习能力有限，我们将单一speech类升级为Monophone。建模单元细分，可以避免参数平均，抽象学习能力增强，区分性更好。
+
+### Highlight
 - 16k中文通用VAD模型：可用于检测长语音片段中有效语音的起止时间点。
  - 基于[Paraformer-large长音频模型](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)场景的使用
  - 基于[FunASR框架](https://github.com/alibaba-damo-academy/FunASR)，可进行ASR，VAD，[中文标点](https://www.modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/summary)的自由组合
  - 基于音频数据的有效语音片段起止时间点检测

-## <strong>[FunASR开源项目介绍](https://github.com/alibaba-damo-academy/FunASR)</strong>
-<strong>[FunASR](https://github.com/alibaba-damo-academy/FunASR)</strong>希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并推动语音识别生态的发展。让语音识别更有趣！
+## 环境依赖
+| 软件 | 版本 |
+| :------: | :------: |
+|     DTK      |  25.04.2  |
+|    python    |  3.10.12  |
+| transformers |  4.57.1  |
+|    torch     | 2.5.1+das.opt1.dtk25042 |
+|     vllm     | 0.9.2+das.opt1.dtk25042 |
+
+推荐使用镜像:image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.5.1-ubuntu22.04-dtk25.04.2-py3.10
+
+- 挂载地址`-v`根据实际模型修改
+
+```bash
+docker run -it \
+    --shm-size 200g \
+    --network=host \
+    --name FSMN-Monophone \
+    --privileged \
+    --device=/dev/kfd 
+    --device=/dev/dri \
+    --device=/dev/mkfd \
+    --group-add video \
+    --cap-add=SYS_PTRACE \
+    --security-opt seccomp=unconfined \
+    -u root \
+    -v /opt/hyhal/:/opt/hyhal/:ro \
+    -v /path/your_code_data/:/path/your_code_data/ \
+    image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.5.1-ubuntu22.04-dtk25.04.2-py3.10 bash
+
+```    
+更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
+
+关于本项目DCU显卡所需的特殊深度学习库开从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装，其它包参考requirements.txt安装：
+```bash
+pip install -u funasr
+source fastpt –E
+```

-[**github仓库**](https://github.com/alibaba-damo-academy/FunASR)
-| [**最新动态**](https://github.com/alibaba-damo-academy/FunASR#whats-new) 
-| [**环境安装**](https://github.com/alibaba-damo-academy/FunASR#installation)
-| [**服务部署**](https://www.funasr.com)
-| [**模型库**](https://github.com/alibaba-damo-academy/FunASR/tree/main/model_zoo)
-| [**联系我们**](https://github.com/alibaba-damo-academy/FunASR#contact)

+## 数据集
+`暂无`
+## 训练
+`暂无`
+## 推理

-## 模型原理介绍
+### 基于FunASR进行推理
+```bash
+funasr ++model=paraformer-zh ++input=/example/vad_example.wav
+```

-FSMN-Monophone VAD是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，并将检测出来的有效音频片段输入识别引擎进行识别，减少无效语音带来的识别错误。
+### python示例
+```bash
+from funasr import AutoModel
+# paraformer-zh is a multi-functional asr model
+# use vad, punc, spk or not as you need
+model = AutoModel(model="paraformer-zh", model_revision="v2.0.4",
+                  vad_model="fsmn-vad", vad_model_revision="v2.0.4",
+                  punc_model="ct-punc-c", punc_model_revision="v2.0.4",
+                  # spk_model="cam++", spk_model_revision="v2.0.2",
+                  )
+res = model.generate(input=f"{model.model_path}/example/vad_example.wav", 
+            batch_size_s=300, 
+            hotword='魔搭')
+print(res)
+```
+
+
+## 效果展示
+
+<div align=center>
+    <img src="./example/ex.png"/>
+</div>
+
+## 精度
+
+
+## 预训练权重

-<p align="center">
-<img src="fig/struct.png" alt="VAD模型结构"  width="500" />

-FSMN-Monophone VAD模型结构如上图所示：模型结构层面，FSMN模型结构建模时可考虑上下文信息，训练和推理速度快，且时延可控；同时根据VAD模型size以及低时延的要求，对FSMN的网络结构、右看帧数进行了适配。在建模单元层面，speech信息比较丰富，仅用单类来表征学习能力有限，我们将单一speech类升级为Monophone。建模单元细分，可以避免参数平均，抽象学习能力增强，区分性更好。

 ## 基于ModelScope进行推理

@@ -251,24 +275,6 @@ res = model.generate(input="那今天的会就到这里吧 happy new year 明年
 print(res)
 ```

-#### 时间戳预测
-```python
-from funasr import AutoModel
-
-model = AutoModel(model="fa-zh", model_revision="v2.0.4")
-
-wav_file = f"{model.model_path}/example/asr_example.wav"
-text_file = f"{model.model_path}/example/text.txt"
-res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
-print(res)
-```
-
-更多详细用法（[示例](https://github.com/alibaba-damo-academy/FunASR/tree/main/examples/industrial_data_pretraining)）
-
-
-## 微调
-
-详细用法（[示例](https://github.com/alibaba-damo-academy/FunASR/tree/main/examples/industrial_data_pretraining)）




--- a/README0.md
+++ b/README0.md
-speech_fsmn_vad_zh-cn-16k-common-pytorch
-
-模型简介
-
-FSMN-Monophone VAD是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，并将检测出来的有效音频片段输入识别引擎进行识别，减少无效语音带来的识别错误.
-
-模型原理介绍
-FSMN-Monophone VAD是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，并将检测出来的有效音频片段输入识别引擎进行识别，减少无效语音带来的识别错误。
-
-
-FSMN-Monophone VAD模型结构如上图所示：模型结构层面，FSMN模型结构建模时可考虑上下文信息，训练和推理速度快，且时延可控；同时根据VAD模型size以及低时延的要求，对FSMN的网络结构、右看帧数进行了适配。在建模单元层面，speech信息比较丰富，仅用单类来表征学习能力有限，我们将单一speech类升级为Monophone。建模单元细分，可以避免参数平均，抽象学习能力增强，区分性更好。
--- a/example/ex.png
+++ b/example/ex.png
--- a/example/vad_example.wav
+++ b/example/vad_example.wav
--- a/fig/struct.png
+++ b/fig/struct.png