Commit 271f14f7 authored by chenych's avatar chenych
Browse files

Update README

parent 085561c0
......@@ -5,22 +5,23 @@
## 模型结构
Qwen3-480B-A35B-Instruct 具备以下特点:
参数: 总参数 480B 激活参数 35B
层数: 62
注意力头 (GQA): 96 Q、8 KV
专家数: 160
激活专家数: 8
文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token
- 参数: 总参数 480B 激活参数 35B
- 层数: 62
- 注意力头 (GQA): 96 Q、8 KV
- 专家数: 160
- 激活专家数: 8
- 文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token
<div align=center>
<img src="./doc/model.png"/>
<img src="./doc/transformers.jpg"/>
</div>
## 算法原理
在预训练阶段上仍然在努力,这次 Qwen3-Coder 我们从不同角度进行 Scaling,以提升模型的代码能力:
<div align=center>
<img src="./doc/methods.png"/>
</div>
- 数据扩展:总计 7.5T(代码占比 70%),在保持通用与数学能力的同时,具备卓越的编程能力;
- 上下文扩展:原生支持 256K 上下文,借助 YaRN 可拓展至 1M,专为仓库级和动态数据(如 Pull Request)优化,助力 Agentic Coding;
- 合成数据扩展:利用 Qwen2.5-Coder 对低质数据进行清洗与重写,显著提升整体数据质量;
## 环境配置
### 硬件需求
......@@ -103,7 +104,9 @@ curl http://x.x.x.x:8000/v1/chat/completions \
> VLLM_HOST_IP:节点本地通信口ip,尽量选择IB网卡的IP,**避免出现rccl超时问题**
>
> NCCL_SOCKET_IFNAME和GLOO_SOCKET_IFNAME:节点本地通信网口ip对应的名称
>
> 通信口和ip查询方法:ifconfig
>
> IB口状态查询:ibstat !!!一定要active激活状态才可用,各个节点要保持统一
```bash
......@@ -192,3 +195,4 @@ DCU与GPU精度一致,推理框架:vllm。
## 参考资料
- https://github.com/QwenLM/Qwen3-Coder
- https://qwenlm.github.io/blog/qwen3-coder/
doc/results-nv.png

82.1 KB | W: | H:

doc/results-nv.png

33.2 KB | W: | H:

doc/results-nv.png
doc/results-nv.png
doc/results-nv.png
doc/results-nv.png
  • 2-up
  • Swipe
  • Onion skin
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment