一、DAS 1.8新版本介绍
DAS1.8 重点适配新一代深算三号升级产品BW1100,并全面支持深算三号全系列。实现框架组件的全面兼容与高版本稳定适配,同时完善AI 编译器技术栈,提供对 Triton、TVM、TileLang 等主流方案的支撑。推理框架适配FP8精度,支持KV Cache FP8量化,并通过PD分离方案、KV Store优化以及大EP并行方案,实现大语言模型的高效推理。训练框架支持低精度FP8、int8训练,通过TP通算融合、MOE A2A overlap、高性能专家并行等并行优化核心技术,有力支撑超大规模分布式训练。具体更新内容参考:
1、DAS1.8 Release Note 访问地址:
https://das.sourcefind.cn:55011/portal/#/docs/DAS1.8%E5%8F%91%E5%B8%83%E8%AF%B4%E6%98%8E
2、DAS资源下载目录的访问地址:
https://das.sourcefind.cn:55011/portal/#/home

二、新版本主要特性更新如下:
1、基于深算三号及深算三号升级产品,对主流 AI 生态框架进行了深度适配优化,涵盖 PyTorch 2.5.1/2.7.1/2.9.0、TensorFlow 2.18.0、JAX 0.6.0等。
2、推理框架升级至稳定可靠高版本,支持vLLM0.9.2、vLLM 0.11.0、SGLang 0.5.7、Migraphx 5.2.0。
- vLLM v1 engine 实现了 TBO 通信与计算的重叠;
- SGLang支持 PD 分离方案、DP-EP 推理方案;
- 实现 KV Reuse 与 KV Store 方案优化;
- Migraphx支持CV多种通用模型、多模态模型、NLP模型推理优化。
3、提供核心训练框架的深度优化能力,全面支持超大规模分布式训练。
- 在Megatron框架中集成flux,实现TP并行中通信与计算的重叠优化;
- 针对MoE模型,通过A2A overlap机制,在两个batch之间实现计算与EP通信的重叠,显著提升EP并行效率;
- 在PP并行方面,基于Megatron框架实现dualpipev,同样支持MoE的A2A overlap通过激活值卸载技术,有效降低模型显存占用;
- Megatron框架接入DeepEP,优化通信性能,实现高性能的专家并行通信;
- 基于深算三号万卡集群平台,完成10万亿参数模型的AIbenchmark训练性能优化,MFU达到41%。
4、在算子层面,深度适配深算三号B系列产品的FP8精度,定制开发高阶算子,通过 LightOP 提供 60 余项算子支持,具体包括 w4a8、w4a16、w8a8 等多种精度算子的实现,以及 channel wise 与 block wise 量化融合算子的配套支持通过Triton、TVM、TileLang、HYTLASS形成多维算子能力支撑。
5、持续构建DCU AI开源生态,通过OpenDAS为用户提供50余款Pytorch三方组件的源码编译能力。


