remove __MEMORY_SCOPE_SYSTEM

d103e0cf · zhuwenwen · 675ba75f · d103e0cf
Commit d103e0cf authored Apr 07, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 22 additions and 13 deletions

csrc/custom_all_reduce.cuh csrc/custom_all_reduce.cuh +22 -13

No files found.
--- a/csrc/custom_all_reduce.cuh
+++ b/csrc/custom_all_reduce.cuh
@@ -247,12 +247,16 @@ DINLINE void barrier_at_start(const RankSignals& sg, Signal* self_sg,
  if (threadIdx.x < ngpus) {
    // simultaneously write to the corresponding flag of all ranks.
    // Latency = 1 p2p write
-    __scoped_atomic_store_n(&sg.signals[threadIdx.x]->start[blockIdx.x][rank],
+    // __scoped_atomic_store_n(&sg.signals[threadIdx.x]->start[blockIdx.x][rank],
-                            flag, __ATOMIC_RELAXED, __MEMORY_SCOPE_SYSTEM);
+    //                         flag, __ATOMIC_RELAXED, __MEMORY_SCOPE_SYSTEM);
+    __atomic_store_n(&sg.signals[threadIdx.x]->start[blockIdx.x][rank], flag,
+      __ATOMIC_RELAXED);
    // wait until we got true from all ranks
-    while (__scoped_atomic_load_n(&self_sg->start[blockIdx.x][threadIdx.x],
+    // while (__scoped_atomic_load_n(&self_sg->start[blockIdx.x][threadIdx.x],
-                                  __ATOMIC_RELAXED,
+    //                               __ATOMIC_RELAXED,
-                                  __MEMORY_SCOPE_DEVICE) < flag);
+    //                               __MEMORY_SCOPE_DEVICE) < flag);
+    while (__atomic_load_n(&self_sg->start[blockIdx.x][threadIdx.x],
+      __ATOMIC_RELAXED) < flag);
  }
  __syncthreads();
  // use one thread to update flag
@@ -266,15 +270,20 @@ DINLINE void barrier_at_end(const RankSignals& sg, Signal* self_sg, int rank) {
  if (threadIdx.x < ngpus) {
    // simultaneously write to the corresponding flag of all ranks.
    // Latency = 1 p2p write
-    __scoped_atomic_store_n(&sg.signals[threadIdx.x]->end[blockIdx.x][rank],
+    // __scoped_atomic_store_n(&sg.signals[threadIdx.x]->end[blockIdx.x][rank],
-                            flag,
+    //                         flag,
-                            final_sync ? __ATOMIC_RELAXED : __ATOMIC_RELEASE,
+    //                         final_sync ? __ATOMIC_RELAXED : __ATOMIC_RELEASE,
-                            __MEMORY_SCOPE_SYSTEM);
+    //                         __MEMORY_SCOPE_SYSTEM);
+    __atomic_store_n(&sg.signals[threadIdx.x]->end[blockIdx.x][rank], flag,
+      final_sync ? __ATOMIC_RELAXED : __ATOMIC_RELEASE);
    // wait until we got true from all ranks
-    while (
+    // while (
-        __scoped_atomic_load_n(&self_sg->end[blockIdx.x][threadIdx.x],
+    //     __scoped_atomic_load_n(&self_sg->end[blockIdx.x][threadIdx.x],
-                               final_sync ? __ATOMIC_RELAXED : __ATOMIC_ACQUIRE,
+    //                            final_sync ? __ATOMIC_RELAXED : __ATOMIC_ACQUIRE,
-                               __MEMORY_SCOPE_DEVICE) < flag);
+    //                            __MEMORY_SCOPE_DEVICE) < flag);
+    while (__atomic_load_n(&self_sg->end[blockIdx.x][threadIdx.x],
+                final_sync ? __ATOMIC_RELAXED : __ATOMIC_ACQUIRE) <
+    flag);
  }
  if constexpr (!final_sync) __syncthreads();
  // use one thread to update flag