fix: compile gemm_batched.cu complete

c78a5692 · fengzch · 9316940c · c78a5692
Commit c78a5692 authored Nov 21, 2025 by fengzch
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

src/kernels/gemm_batched.cu src/kernels/gemm_batched.cu +3 -3

No files found.
--- a/src/kernels/gemm_batched.cu
+++ b/src/kernels/gemm_batched.cu
@@ -34,16 +34,16 @@ Tensor gemm_batched_fp16(Tensor a,  // FP16 row-major [(... batch ...), M, K]
        LayoutO,
        ElementOutput,
        cutlass::arch::OpClassTensorOp,
-        cutlass::arch::Sm80,
+        cutlass::arch::Gfx928,
        cutlass::gemm::GemmShape<32, 32, 64>,
        cutlass::gemm::GemmShape<32, 32, 64>,
-        cutlass::gemm::GemmShape<16, 8, 16>,
+        cutlass::gemm::GemmShape<16, 16, 16>,
        cutlass::epilogue::thread::LinearCombination<ElementOutput,
                                                     128 / cutlass::sizeof_bits<ElementOutput>::value,
                                                     ElementOutput,
                                                     ElementOutput>,
        cutlass::gemm::threadblock::GemmBatchedIdentityThreadblockSwizzle,
-        2>;
+        1>;

    auto sizeA = cutlass::MatrixCoord(M, K);
    auto sizeB = cutlass::MatrixCoord(K, N);