光合开发者社区

一、DAS 1.8新版本介绍

DAS1.8 重点适配新一代深算三号升级产品BW1100，并全面支持深算三号全系列。实现框架组件的全面兼容与高版本稳定适配，同时完善AI 编译器技术栈，提供对 Triton、TVM、TileLang 等主流方案的支撑。推理框架适配FP8精度，支持KV Cache FP8量化，并通过PD分离方案、KV Store优化以及大EP并行方案，实现大语言模型的高效推理。训练框架支持低精度FP8、int8训练，通过TP通算融合、MOE A2A overlap、高性能专家并行等并行优化核心技术，有力支撑超大规模分布式训练。具体更新内容参考:

1、DAS1.8 Release Note 访问地址：

https://das.sourcefind.cn:55011/portal/#/docs/DAS1.8%E5%8F%91%E5%B8%83%E8%AF%B4%E6%98%8E

2、DAS资源下载目录的访问地址：

https://das.sourcefind.cn:55011/portal/#/home

二、新版本主要特性更新如下：

1、基于深算三号及深算三号升级产品，对主流 AI 生态框架进行了深度适配优化，涵盖 PyTorch 2.5.1/2.7.1/2.9.0、TensorFlow 2.18.0、JAX 0.6.0等。

2、推理框架升级至稳定可靠高版本，支持vLLM0.9.2、vLLM 0.11.0、SGLang 0.5.7、Migraphx 5.2.0。

vLLM v1 engine 实现了 TBO 通信与计算的重叠；
SGLang支持 PD 分离方案、DP-EP 推理方案；
实现 KV Reuse 与 KV Store 方案优化；
Migraphx支持CV多种通用模型、多模态模型、NLP模型推理优化。

3、提供核心训练框架的深度优化能力，全面支持超大规模分布式训练。

在Megatron框架中集成flux，实现TP并行中通信与计算的重叠优化；
针对MoE模型，通过A2A overlap机制，在两个batch之间实现计算与EP通信的重叠，显著提升EP并行效率；
在PP并行方面，基于Megatron框架实现dualpipev，同样支持MoE的A2A overlap通过激活值卸载技术，有效降低模型显存占用；
Megatron框架接入DeepEP，优化通信性能，实现高性能的专家并行通信；
基于深算三号万卡集群平台，完成10万亿参数模型的AIbenchmark训练性能优化，MFU达到41%。

4、在算子层面，深度适配深算三号B系列产品的FP8精度，定制开发高阶算子，通过 LightOP 提供 60 余项算子支持，具体包括 w4a8、w4a16、w8a8 等多种精度算子的实现，以及 channel wise 与 block wise 量化融合算子的配套支持通过Triton、TVM、TileLang、HYTLASS形成多维算子能力支撑。

5、持续构建DCU AI开源生态，通过OpenDAS为用户提供50余款Pytorch三方组件的源码编译能力。