Use TMA to optimize internode combine. (#287)

* Let forwarders use a dedicated SM * Shuffle rdma idx * Sender use TMA. * Adjust the tuning chunk size. * Modify NVL chunk layout. * Update some combine config. * Small lint * Minor fix * Overlap TMA store --------- Co-authored-by: Chenggang Zhao <chenggangz@deepseek.com>

Use TMA to optimize internode combine. (#287)
* Let forwarders use a dedicated SM * Shuffle rdma idx * Sender use TMA. * Adjust the tuning chunk size. * Modify NVL chunk layout. * Update some combine config. * Small lint * Minor fix * Overlap TMA store --------- Co-authored-by: Chenggang Zhao <chenggangz@deepseek.com>
06f417dc · Shangyan Zhou · GitHub · 1cf85fb2 · 06f417dc · 06f417dc
Unverified Commit 06f417dc authored Jul 10, 2025 by Shangyan Zhou Committed by GitHub Jul 10, 2025
Expand all Hide whitespace changes
Inline Side-by-side

Showing with 94 additions and 72 deletions

csrc/kernels/internode.cu csrc/kernels/internode.cu +90 -68

deep_ep/buffer.py deep_ep/buffer.py +3 -3

tests/test_internode.py tests/test_internode.py +1 -1

No files found.
--- a/csrc/kernels/internode.cu
+++ b/csrc/kernels/internode.cu
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -231,9 +231,9 @@ class Buffer:
            2: Config(Buffer.num_sms, 10, 256, 6, 128),
            4: Config(Buffer.num_sms, 9, 256, 6, 128),
            8: Config(Buffer.num_sms, 4, 256, 6, 128),
-            16: Config(Buffer.num_sms, 2, 288, 28, 128),
-            24: Config(Buffer.num_sms, 1, 288, 20, 128),
-            32: Config(Buffer.num_sms, 1, 288, 20, 128),
+            16: Config(Buffer.num_sms, 4, 288, 16, 128),
+            24: Config(Buffer.num_sms, 1, 288, 8, 128),
+            32: Config(Buffer.num_sms, 1, 288, 8, 128),
            64: Config(Buffer.num_sms, 1, 288, 20, 128),
            128: Config(Buffer.num_sms, 1, 560, 12, 128),
            144: Config(Buffer.num_sms, 2, 720, 8, 128),

--- a/tests/test_internode.py
+++ b/tests/test_internode.py
@@ -209,7 +209,7 @@ def test_main(args: argparse.Namespace, num_sms: int,

    # Tune combine performance
    best_time, best_results = 1e10, None
-    for nvl_chunk_size in range(1, 5, 1):
+    for nvl_chunk_size in range(1, 13, 1):
        for rdma_chunk_size in range(8, 33, 4):
            config = deep_ep.Config(num_sms, nvl_chunk_size, nvl_buffer_size, rdma_chunk_size, rdma_buffer_size)
            tune_args = {'x': recv_x, 'handle': handle, 'config': config}