README.md 4.41 KB
Newer Older
zzg_666's avatar
zzg_666 committed
1
2
3
4
5
6
7
8
9
10
11
# Nanbeige4.1-3B
## 论文
[Nanbeige4.1-3B](https://arxiv.org/abs/2602.13367)
## 模型简介
Nanbeige4.1-3B是基于Nanbeige4-3B-Base构建的,是我们之前的推理模型Nanbeige4-3B-Thinking-2511的增强版本。该模型通过进一步的监督微调(SFT)和强化学习(RL)后训练优化而实现。作为小参数量规模下极具竞争力的开源模型,Nanbeige4.1-3B展示了紧凑型模型能够同时实现强大的推理能力、偏好对齐和有效的智能体行为。

<div align=center>
    <img src="./doc/perf.jpg"/>
</div>

具体而言,Nanbeige4.1-3B展现出以下核心优势:  
zzg_666's avatar
修改  
zzg_666 committed
12
13
14
**强大推理能力**:Nanbeige4.1-3B能够在单次前向传播中通过持续连贯的推理解决复杂的多步骤问题,并在LiveCodeBench-Pro、IMO-Answer-Bench和AIME 2026 I等具有挑战性的任务上稳定输出正确的最终答案。  
**稳健的偏好对齐**:Nanbeige4.1-3B实现了出色的对齐性能,在Arena-Hard-v2和Multi-Challenge基准测试中不仅超越了Qwen3-4B-2507和Nanbeige4-3B-2511等同规模模型,而且显著优于包括Qwen3-30B-A3B和Qwen3-32B在内的更大规模模型。  
**智能体能力**:Nanbeige4.1-3B是首个原生支持深度搜索任务并能够稳定处理超过500轮工具调用复杂问题求解的小型通用模型。它填补了小模型生态中长期存在的空白——即模型通常要么针对通用推理进行优化,要么针对智能体场景进行优化,但很少能在两方面都表现卓越。  
zzg_666's avatar
zzg_666 committed
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113


## 环境依赖

|     软件     |                      版本                      |
| :----------: | :--------------------------------------------: |
|     DTK      |                    26.04.2                     |
|    python    |                    3.10.12                     |
| transformers |                     4.57.6                     |
|    torch     |   2.5.1+das.opt1.dtk2604.20260116.g78471bfd    |
|  accelerate  |                     1.12.0                     |
| torchvision  |   0.20.1+das.opt1.dtk2604.20260116.g65c66897   |
|  flash_attn  |   2.6.1+das.opt1.dtk2604.20260131.g4edd8bf9    |
|     vllm     | 0.11.0+das.opt1.rc2.dtk2604.20260128.g0bf89b0c |

推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-0130-py3.10-20260202

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 60g \
    --network=host \
    --name Nanbeige4.1 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-0130-py3.10-20260202 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。


## 数据集

`暂无`

## 训练

`暂无`

## 推理

## vllm

#### 单机推理

```bash
## serve启动
可参考vllm_serve.sh脚本
vllm serve Nanbeige/Nanbeige4.1-3B --trust-remote-code --dtype bfloat16 -tp 1 --max-model-len 32768 --port 8010
## client访问
可参考vllm_cilent.sh
curl -X POST "http://localhost:8010/v1/chat/completions"      -H "Content-Type: application/json"     --data '{
                "model": "Nanbeige/Nanbeige4.1-3B",
                "messages": [
                        {
                                "role": "user",
                                "content": "中国的首都是什么"
                        }
                ]
        }'

```

## 效果展示

<div align=center>
    <img src="./doc/result.png"/>
</div>


### 精度

`DCU与GPU精度一致,推理框架:vllm。`

## 预训练权重

|     **模型名称**     | **权重大小** |  **DCU型号**  | **最低卡数需求** |                         **下载地址**                         |
| :------------------: | :----------: | :-----------: | :--------------: | :----------------------------------------------------------: |
| Nanbeige4.1-3B |     3B      | K100AI |        1         | [Nanbeige4.1-3B](https://huggingface.co/Nanbeige/Nanbeige4.1-3B) |




## 源码仓库及问题反馈

- https://developer.sourcefind.cn/codes/modelzoo/nanbeige4.1_vllm
## 参考资料

- https://huggingface.co/Nanbeige/Nanbeige4.1-3B