Merge branch 'ds-v0.9.2-rocm' into 'main'

Ds v0.9.2 rocm See merge request dcutoolkit/deeplearing/deepspeed!2

Merge branch 'ds-v0.9.2-rocm' into 'main'
Ds v0.9.2 rocm See merge request dcutoolkit/deeplearing/deepspeed!2
c25a91b6 · aiss · d1596c94 · af82b300 · c25a91b6 · c25a91b6
Commit c25a91b6 authored May 30, 2023 by aiss
20 changed files
--- a/blogs/assets/images/figure3.png
+++ b/blogs/assets/images/figure3.png
--- a/blogs/assets/images/figure4.png
+++ b/blogs/assets/images/figure4.png
--- a/blogs/assets/images/figure5.png
+++ b/blogs/assets/images/figure5.png
--- a/blogs/assets/images/figure6.png
+++ b/blogs/assets/images/figure6.png
--- a/blogs/assets/images/figure7.png
+++ b/blogs/assets/images/figure7.png
--- a/blogs/assets/images/hero-figure-black-ja.png
+++ b/blogs/assets/images/hero-figure-black-ja.png
--- a/blogs/assets/images/hero-figure-black.png
+++ b/blogs/assets/images/hero-figure-black.png
--- a/blogs/assets/images/hybrid-engine.png
+++ b/blogs/assets/images/hybrid-engine.png
--- a/blogs/assets/images/mascot.png
+++ b/blogs/assets/images/mascot.png
--- a/blogs/deepspeed-chat/README.md
+++ b/blogs/deepspeed-chat/README.md
--- a/blogs/deepspeed-chat/chinese/README.md
+++ b/blogs/deepspeed-chat/chinese/README.md
--- a/blogs/deepspeed-chat/japanese/README.md
+++ b/blogs/deepspeed-chat/japanese/README.md
--- a/csrc/adagrad/cpu_adagrad.cpp
+++ b/csrc/adagrad/cpu_adagrad.cpp
-#ifdef __HIPCC__
-#include "cpu_adagrad_hip.h"
-#else
-#include "cpu_adagrad.h"
-#endif
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0

+// DeepSpeed Team
+
+#include "cpu_adagrad.h"
 #include <torch/extension.h>
 #include <iostream>
 #include <memory>
@@ -178,7 +178,7 @@ int ds_adagrad_step(int optimizer_id,
        std::static_pointer_cast<Adagrad_Optimizer>(s_optimizers[optimizer_id]);
    opt->IncrementStep(step);
    opt->update_state(lr, epsilon, weight_decay);
-    opt->Step_8(params_ptr, grads_ptr, exp_avg_sq_ptr, params_c.size(0));
+    opt->Step_8(params_ptr, grads_ptr, exp_avg_sq_ptr, params_c.numel());

 #if defined(__ENABLE_CUDA__)
    opt->SynchronizeStreams();
@@ -214,7 +214,7 @@ int ds_adagrad_step_plus_copy(int optimizer_id,
    opt->Step_8(params_ptr,
                grads_ptr,
                exp_avg_sq_ptr,
-                params_c.size(0),
+                params_c.numel(),
                gpu_params_ptr,
                (params.options().dtype() == at::kHalf));


--- a/csrc/adam/compat.h
+++ b/csrc/adam/compat.h
-/* Copyright 2020 The Microsoft DeepSpeed Team
-   Copyright NVIDIA/apex
-   This file is adapted from fused adam in NVIDIA/apex, commit a109f85
-*/
-
-#ifndef TORCH_CHECK
-#define TORCH_CHECK AT_CHECK
-#endif
-
-#ifdef VERSION_GE_1_3
-#define DATA_PTR data_ptr
-#else
-#define DATA_PTR data
-#endif
--- a/csrc/adam/cpu_adam.cpp
+++ b/csrc/adam/cpu_adam.cpp
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0
+
+// DeepSpeed Team
+
 #include "cpu_adam.h"
 #include <torch/extension.h>
 #include <cassert>
@@ -230,7 +235,7 @@ int ds_adam_step(int optimizer_id,
                grads_ptr,
                exp_avg_ptr,
                exp_avg_sq_ptr,
-                params_c.size(0),
+                params_c.numel(),
                nullptr,
                (params.options().dtype() == at::kHalf));

@@ -275,7 +280,7 @@ int ds_adam_step_plus_copy(int optimizer_id,
                grads_ptr,
                exp_avg_ptr,
                exp_avg_sq_ptr,
-                params_c.size(0),
+                params_c.numel(),
                gpu_params_ptr,
                (params.options().dtype() == at::kHalf));


--- a/csrc/adam/custom_cuda_kernel.cu
+++ b/csrc/adam/custom_cuda_kernel.cu
-
-
-#include "custom_cuda_layers.h"
-
-__global__ void param_update_kernel(const float* input, __half* output, int size)
-{
-    int id = blockIdx.x * blockDim.x + threadIdx.x;
-
-    if (id < size) { output[id] = (__half)input[id]; }
-}
-
-void launch_param_update(const float* input, __half* output, int size, cudaStream_t stream)
-{
-    int threads = 1024;
-
-    dim3 grid_dim((size - 1) / threads + 1);
-    dim3 block_dim(threads);
-
-    param_update_kernel<<<grid_dim, block_dim, 0, stream>>>(input, output, size);
-}
--- a/csrc/adam/fused_adam_frontend.cpp
+++ b/csrc/adam/fused_adam_frontend.cpp
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0
+
+// DeepSpeed Team
+
 #include <torch/extension.h>

 void multi_tensor_adam_cuda(int chunk_size,

--- a/csrc/adam/multi_tensor_adam.cu
+++ b/csrc/adam/multi_tensor_adam.cu
-/* Copyright 2020 The Microsoft DeepSpeed Team
-   Copyright NVIDIA/apex
-   This file is adapted from fused adam in NVIDIA/apex, commit a109f85
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0
+
+// DeepSpeed Team
+
+/*
+Copyright NVIDIA/apex
+This file is adapted from fused adam in NVIDIA/apex, commit a109f85
 */

 #include <ATen/ATen.h>
@@ -12,11 +17,7 @@

 #include <assert.h>

-#ifdef __HIPCC__
-#include "multi_tensor_apply_hip.cuh"
-#else
 #include "multi_tensor_apply.cuh"
-#endif
 #include "type_shim.h"

 #define BLOCK_SIZE 512

--- a/csrc/adam/multi_tensor_apply.cuh
+++ b/csrc/adam/multi_tensor_apply.cuh
-/* Copyright 2020 The Microsoft DeepSpeed Team
-   Copyright NVIDIA/apex
-   This file is adapted from fused adam in NVIDIA/apex, commit a109f85
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0
+
+// DeepSpeed Team
+
+/*
+Copyright NVIDIA/apex
+This file is adapted from fused adam in NVIDIA/apex, commit a109f85
 */

 #include <ATen/ATen.h>

--- a/csrc/aio/common/deepspeed_aio_common.cpp
+++ b/csrc/aio/common/deepspeed_aio_common.cpp
-/*
-Copyright 2020 The Microsoft DeepSpeed Team
-Licensed under the MIT license.
+// Copyright (c) Microsoft Corporation.
+// SPDX-License-Identifier: Apache-2.0
+
+// DeepSpeed Team

+/*
 Functionality for swapping optimizer tensors to/from (NVMe) storage devices.
 */

@@ -262,7 +264,7 @@ void report_file_error(const char* filename, const std::string file_op, const in

 int open_file(const char* filename, const bool read_op)
 {
-    const int flags = read_op ? (O_RDONLY | __O_DIRECT) : (O_WRONLY | O_CREAT | __O_DIRECT);
+    const int flags = read_op ? (O_RDONLY | O_DIRECT) : (O_WRONLY | O_CREAT | O_DIRECT);
    const int mode = 0600;
    const auto fd = open(filename, flags, mode);
    if (fd == -1) {