README.md 3.15 KB
Newer Older
dengjb's avatar
update  
dengjb committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
# gpt-oss-20b

## 论文

[GPT-OSS](https://arxiv.org/pdf/2508.10925)

## 模型简介

我们发布了两种版本的开源模型:

- gpt-oss-120b — 适用于生产环境、通用目的、高推理需求,并且可以装入单个 H100 GPU(117B 参数,其中 5.1B 活动参数)
- gpt-oss-20b — 适用于低延迟以及本地或特定用途(21B 参数,其中 3.6B 活动参数)
这两种模型都是在我们的 和谐响应格式 上训练的,并且只能使用该格式,否则将无法正常工作。

**亮点**
- 宽松的 Apache 2.0 许可证: 自由构建,无 copyleft 限制或专利风险—适合实验、定制和商业部署。
- 可配置的推理努力程度: 根据您的具体使用场景和延迟需求轻松调整推理努力程度(低、中、高)。
- 完整的思维链: 完全访问模型的推理过程,便于调试并增加对输出的信任。它不打算展示给最终用户。
- 可微调: 通过参数微调完全自定义模型以适应您的特定使用场景。
- 代理能力: 使用模型的原生功能进行函数调用、网页浏览、Python 代码执行 和结构化输出。
- 原生 MXFP4 量化: 模型在 MoE 层使用原生 MXFP4 精度进行训练,使 gpt-oss-120b 可以在单个 H100 GPU 上运行,而 gpt-oss-20b 模型可以在 16GB 内存内运行。



<div align=center>
    <img src="./assets/modle.png"/>
</div>

## 环境依赖

| 软件 | 版本 |
| :------: | :------: |
| DTK | 25.04+ |
| python | 3.10+ |
| torch | 2.5.1+das.opt1.dtk2604 |
| transformers | 4.57.6 |
| vllm | 0.11.0+das.opt1.rc4.dtk2604 |

推荐使用镜像: `harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-py3.10 `

```bash
docker run -it \
    --shm-size 60g \
    --network=host \
    --name gpt-oss-inference \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-py3.10  bash
```

更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,其它包参照requirements.txt安装:


## 数据集

暂无

## 训练

暂无

## 推理

### vllm

#### 单机推理

```bash
bash dirs/run_vllm_server.sh
```

## 效果展示

<div align=center>
    <img src="./assets/result.png"/>
</div>

### 精度

`DCU与GPU精度一致,推理框架:vllm。`

## 预训练权重

| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| gpt-oss-20b | 20B | BW1000 | 1 | [Modelscope](https://www.modelscope.cn/models/unsloth/gpt-oss-20b-BF16) |

## 源码仓库及问题反馈

- https://developer.sourcefind.cn/codes/modelzoo/gpt-oss_vllm

## 参考资料

- [GPT-OSS GitHub](https://github.com/openai/gpt-oss)
- [vLLM 官方文档](https://docs.vllm.ai/)