Update README

271f14f7 · chenych · 085561c0 · 271f14f7 · 085561c0 · 085561c0
Commit 271f14f7 authored Sep 18, 2025 by chenych
6 changed files
--- a/README.md
+++ b/README.md
@@ -5,22 +5,23 @@
 ## 模型结构
 Qwen3-480B-A35B-Instruct 具备以下特点:
-参数: 总参数 480B 激活参数 35B
+- 参数: 总参数 480B 激活参数 35B
-层数: 62
+- 层数: 62
-注意力头 (GQA): 96 Q、8 KV
+- 注意力头 (GQA): 96 Q、8 KV
-专家数: 160
+- 专家数: 160
-激活专家数: 8
+- 激活专家数: 8
-文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token
+- 文本长度: 原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token
 <div align=center>
-    <img src="./doc/model.png"/>
+    <img src="./doc/transformers.jpg"/>
 </div>
 ## 算法原理
+在预训练阶段上仍然在努力，这次 Qwen3-Coder 我们从不同角度进行 Scaling，以提升模型的代码能力：
-<div align=center>
+- 数据扩展：总计 7.5T（代码占比 70%），在保持通用与数学能力的同时，具备卓越的编程能力；
-    <img src="./doc/methods.png"/>
+- 上下文扩展：原生支持 256K 上下文，借助 YaRN 可拓展至 1M，专为仓库级和动态数据（如 Pull Request）优化，助力 Agentic Coding；
-</div>
+- 合成数据扩展：利用 Qwen2.5-Coder 对低质数据进行清洗与重写，显著提升整体数据质量；
 ## 环境配置
 ### 硬件需求
@@ -103,7 +104,9 @@ curl http://x.x.x.x:8000/v1/chat/completions \
 > VLLM_HOST_IP：节点本地通信口ip，尽量选择IB网卡的IP，**避免出现rccl超时问题**
 >
 > NCCL_SOCKET_IFNAME和GLOO_SOCKET_IFNAME：节点本地通信网口ip对应的名称
+>
 > 通信口和ip查询方法：ifconfig
+>
 > IB口状态查询：ibstat  !!!一定要active激活状态才可用，各个节点要保持统一
 ```bash
@@ -192,3 +195,4 @@ DCU与GPU精度一致，推理框架：vllm。
 ## 参考资料
 - https://github.com/QwenLM/Qwen3-Coder
+- https://qwenlm.github.io/blog/qwen3-coder/
--- a/doc/methods.png
+++ b/doc/methods.png
--- a/doc/model.png
+++ b/doc/model.png
--- a/doc/registry.png
+++ b/doc/registry.png
--- a/doc/results-nv.png
+++ b/doc/results-nv.png
--- a/doc/transformers.jpg
+++ b/doc/transformers.jpg