# Nemotron-Cascade 2
## 论文
[Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation](https://arxiv.org/abs/2603.19220)
## 模型简介
我们很高兴地推出Nemotron-Cascade-2-30B-A3B,这是一个拥有300亿参数的开源混合专家(MoE)模型,其激活参数为30亿,具备强大的推理和智能体能力。该模型是基于Nemotron-3-Nano-30B-A3B-Base进行后期训练得到的。Nemotron-Cascade-2-30B-A3B在2025年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得了金牌级别的优异成绩。它支持思考模式和指导(非思考)模式两种运行方式。
## 环境依赖
| **软件** | **版本** |
| :----------: | :------------------------------------------------: |
| DTK | 26.04 |
| python | 3.10.12 |
| transformers | 5.2.0.dev0 |
| vllm | 0.15.1+das.opt1.alpha.dtk2604 |
| triton | 3.3.0+das.opt2.dtk2604.torch291.20260210.g1329924c |
| torch | 22.9.0+das.opt1.dtk2604.20260206.g275d08c2 |
| numpy | 1.26.1 |
当前仅支持以下镜像: `harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220`
- 挂载地址`-v` 根据实际模型情况修改
```
docker run -it --shm-size 200g \
--network=host \
--name Nemotron-Cascade \
--privileged \
--device=/dev/kfd \
--device=/dev/dri \
--device=/dev/mkfd \
--group-add video \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
-u root \
-v /opt/hyhal/:/opt/hyhal/:ro \
harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,numpy、vllm 库需要替换安装:
```
pip uninstall vllm
pip uninstall numpy
pip install vllm-0.15.1+das.opt1.alpha.dtk2604-cp310-cp310-linux_x86_64.whl
pip install numpy==1.26.1
```
## 数据集
暂无
## 训练
暂无
## 推理
### vllm
#### 单机推理
```
## serve启动
export VLLM_USE_NN=0
export VLLM_ENABLE_MOE_FUSED_GATE=0
vllm serve nvidia/Nemotron-Cascade-2-30B-A3B --trust-remote-code --dtype bfloat16 -tp 2 --port 8010
## client访问
curl -X POST "http://localhost:8010/v1/chat/completions" -H "Content-Type: application/json" --data '{
"model": "nvidia/Nemotron-Cascade-2-30B-A3B",
"messages": [
{
"role": "user",
"content": "你是谁"
}
]
}'
```
## 效果展示
### 精度
DCU 与 GPU 精度一致,推理框架:vllm。
## 预训练权重
| **模型名称** | **权重大小** | **DCU型号** | **最低卡数需求** | **下载地址** |
| :-----------------------------: | :----------: | :-----------: | :--------------: | :----------------------------------------------------------: |
| Nemotron-Cascade-2-30B-A3B | 30B | BW1000 | 2 | [Hugging Face](https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B) |
## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/nemotron-cascade-2_vllm
## 参考资料
- https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B