Update README.md

6d78e0bc · luopl · 15147f6a · 6d78e0bc
Commit 6d78e0bc authored Feb 17, 2026 by luopl
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 19 deletions

README.md README.md +3 -19

No files found.
--- a/README.md
+++ b/README.md
@@ -4,25 +4,9 @@
 ## 模型简介
-Qwen3.5 通过异构基础设施实现高效的原生多模态训练：
+Qwen3.5 通过异构基础设施实现高效的原生多模态训练：在视觉与语言组件上解耦并行策略，避免统一方案带来的低效。利用稀疏激活实现跨模块计算重叠，在混合文本-图像-视频数据上相比纯文本基线达到近 100% 的训练吞吐。在此基础上，原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度，并通过运行时监控在敏感层保持 BF16，实现约 50% 的激活显存降低与超过 10% 的加速，并稳定扩展至数万亿 token。
-在视觉与语言组件上解耦并行策略，避免统一方案带来的低效。
-利用稀疏激活实现跨模块计算重叠，在混合文本-图像-视频数据上相比纯文本基线达到近 100% 的训练吞吐。
+为了持续释放强化学习的潜力，构建了可扩展的异步强化学习框架，支持 Qwen3.5 全尺寸模型，并全面覆盖文本、多模态及多轮交互场景。通过训推分离架构的解耦式设计，该框架显著提升了硬件利用率，实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术，进一步优化了系统吞吐，提高了训推一致性。通过系统与算法协同设计，该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题，提高了训练曲线的稳定性和性能上限。此外，框架面向原生智能体工作流设计，能够实现稳定、无缝的多轮环境交互，消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境，从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速，展现了卓越的稳定性、高效率与可扩展性。
-在此基础上，原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度，
-并通过运行时监控在敏感层保持 BF16，实现约 50% 的激活显存降低与超过 10% 的加速，
-并稳定扩展至数万亿 token。
-为了持续释放强化学习的潜力，构建了可扩展的异步强化学习框架，
-支持 Qwen3.5 全尺寸模型，并全面覆盖文本、多模态及多轮交互场景。
-通过训推分离架构的解耦式设计，该框架显著提升了硬件利用率，
-实现了动态负载均衡和细粒度的故障恢复。
-配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术，
-进一步优化了系统吞吐，提高了训推一致性。
-通过系统与算法协同设计，该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题，
-提高了训练曲线的稳定性和性能上限。
-此外，框架面向原生智能体工作流设计，能够实现稳定、无缝的多轮环境交互，
-消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境，
-从而显著增强模型的泛化能力。
-上述优化最终取得了 3×–5× 的端到端加速，展现了卓越的稳定性、高效率与可扩展性。
 <div align=center>
    <img src="./doc/qwen3.5_397b_a17b_infra.jpg"/>