0.1-dtk23.04 release
  1. 优化multi_tensor_apply性能,减小了chunk_size,增大了depth_to_max_blocks
  2. 添加了FusedLARS优化器
  3. 添加环境变量APEX_ROCBLAS_GEMM_ALLOW_HALF用于控制是否使用fp16r
  4. 添加dcu版本信息和dtk信息