Commit 271f14f7 authored by chenych's avatar chenych
Browse files

Update README

parent 085561c0
...@@ -5,22 +5,23 @@ ...@@ -5,22 +5,23 @@
## 模型结构 ## 模型结构
Qwen3-480B-A35B-Instruct 具备以下特点: Qwen3-480B-A35B-Instruct 具备以下特点:
参数: 总参数 480B 激活参数 35B - 参数: 总参数 480B 激活参数 35B
层数: 62 - 层数: 62
注意力头 (GQA): 96 Q、8 KV - 注意力头 (GQA): 96 Q、8 KV
专家数: 160 - 专家数: 160
激活专家数: 8 - 激活专家数: 8
文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token - 文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token
<div align=center> <div align=center>
<img src="./doc/model.png"/> <img src="./doc/transformers.jpg"/>
</div> </div>
## 算法原理 ## 算法原理
在预训练阶段上仍然在努力,这次 Qwen3-Coder 我们从不同角度进行 Scaling,以提升模型的代码能力:
<div align=center> - 数据扩展:总计 7.5T(代码占比 70%),在保持通用与数学能力的同时,具备卓越的编程能力;
<img src="./doc/methods.png"/> - 上下文扩展:原生支持 256K 上下文,借助 YaRN 可拓展至 1M,专为仓库级和动态数据(如 Pull Request)优化,助力 Agentic Coding;
</div> - 合成数据扩展:利用 Qwen2.5-Coder 对低质数据进行清洗与重写,显著提升整体数据质量;
## 环境配置 ## 环境配置
### 硬件需求 ### 硬件需求
...@@ -103,7 +104,9 @@ curl http://x.x.x.x:8000/v1/chat/completions \ ...@@ -103,7 +104,9 @@ curl http://x.x.x.x:8000/v1/chat/completions \
> VLLM_HOST_IP:节点本地通信口ip,尽量选择IB网卡的IP,**避免出现rccl超时问题** > VLLM_HOST_IP:节点本地通信口ip,尽量选择IB网卡的IP,**避免出现rccl超时问题**
> >
> NCCL_SOCKET_IFNAME和GLOO_SOCKET_IFNAME:节点本地通信网口ip对应的名称 > NCCL_SOCKET_IFNAME和GLOO_SOCKET_IFNAME:节点本地通信网口ip对应的名称
>
> 通信口和ip查询方法:ifconfig > 通信口和ip查询方法:ifconfig
>
> IB口状态查询:ibstat !!!一定要active激活状态才可用,各个节点要保持统一 > IB口状态查询:ibstat !!!一定要active激活状态才可用,各个节点要保持统一
```bash ```bash
...@@ -192,3 +195,4 @@ DCU与GPU精度一致,推理框架:vllm。 ...@@ -192,3 +195,4 @@ DCU与GPU精度一致,推理框架:vllm。
## 参考资料 ## 参考资料
- https://github.com/QwenLM/Qwen3-Coder - https://github.com/QwenLM/Qwen3-Coder
- https://qwenlm.github.io/blog/qwen3-coder/
doc/results-nv.png

82.1 KB | W: | H:

doc/results-nv.png

33.2 KB | W: | H:

doc/results-nv.png
doc/results-nv.png
doc/results-nv.png
doc/results-nv.png
  • 2-up
  • Swipe
  • Onion skin
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment