一、DTK-26.04版本正式发布啦!
本次更新进行了BW1100系列DCU卡适配,同时支持Z100、K100、K100_AI及BW全系列DCU卡,提供Gemm及卷积数学库相关性能优化,提供运行时定制化API,提供新型低延迟、单边通讯库Dushmem,提供DCU专用矩阵计算单元TensorCore接口,除上述需求外还包括部分BUG修复。具体更新内容参考Release Note。
1、DTK-26.04 Release Note 访问地址:
https://download.sourcefind.cn:65024/file/1/DTK-26.04/Document/DTK 26.04 Release Note.pdf
2、DTK-26.04下载地址(推荐升级):
https://download.sourcefind.cn:65024/1/main/DTK-26.04

二、主要更新如下:
1、 全面适配BW1100 DCU,运行时支持定制化API接口,完善VMM功能。通讯库进行了P2P、集合通信算子优化,集成DUSHMEM库,支持IBGDA功能。支持TensorCore定制化接口,适配Npp、Nvvm、Nvcomp、Nvimgcodec、Cuvid、CCCL等库。工具链进行了集群场景性能分析及多节点多卡优化,增加数据库分析选项、buffer策略选项指令、pmc指令支持等。
2、 DCC编译器支持BW1100 DCU,支持Code Object V5格式,Fortran编译器支持private数组、规约的各场景适配,支持结构体、结构体数组中使用多级指针以及不连续数组切片的传输和使用,GCVM中间层适配高版本Tensorflow、JAX、Triton 。
3、 基础数学库BW1100 DCU进行了深度优化,BLAS库支持FP8/FP32/INT8/复数等多类型Gemm通用性与性能优化。MIOpen库进行了FP8类型的卷积支持,CONV支持FWD/BWD/WRW在FP32/FP16/BF16/INT8/FP8/TF32/通用性优化覆盖,BN前向/反向/推理在FP32/FP16通用性优化覆盖,支持可变型卷积算子和推理场景5维排布。BLASLt库增加FP8、Gemm融合算子支持,完善blockwise/channelwise 算子优化与接口。
4、 SOLVER库优化开发分布式特征值接口,SPARSE库优化SPMM稀疏接口性能,FFT库size 针对性优化。


