[Bugfix] Address PassContext contamination from CI and fix incorrect rewrites...

[Bugfix] Address PassContext contamination from CI and fix incorrect rewrites in warp specialized pass (#767) * fix ci and pass bug * fix * try * lint

[Bugfix] Address PassContext contamination from CI and fix incorrect rewrites...
[Bugfix] Address PassContext contamination from CI and fix incorrect rewrites in warp specialized pass (#767) * fix ci and pass bug * fix * try * lint
ff35fc08 · Wenhao Xie · GitHub · 37051417 · ff35fc08 · ff35fc08
Unverified Commit ff35fc08 authored Aug 28, 2025 by Wenhao Xie Committed by GitHub Aug 28, 2025
3 changed files
--- a/src/transform/warp_specialized_rewriter.cc
+++ b/src/transform/warp_specialized_rewriter.cc
@@ -376,14 +376,25 @@ private:
          eq_op->b.as<VarNode>() == thread_var_.get()) {
        maybe_thread_opt_ = true;
      }
-      maybe_thread_opt_ = do_shuffle_ && maybe_thread_opt_;
+      auto then_case = StmtExprMutator::VisitStmt(op->then_case);
+      maybe_thread_opt_ = do_shuffle_ && maybe_thread_opt_ && has_tma_op_;
+      has_tma_op_ = false;
+      if (maybe_thread_opt_) {
+        return IfThenElse(
+            Call(DataType::Bool(), tl_shuffle_elect(), {thread_extent_}),
+            StmtExprMutator::VisitStmt(op->then_case), std::nullopt);
+      }
    }
-    if (maybe_thread_opt_)
+    return StmtExprMutator::VisitStmt_(op);
-      return IfThenElse(
+  }
-          Call(DataType::Bool(), tl_shuffle_elect(), {thread_extent_}),
-          StmtExprMutator::VisitStmt(op->then_case), std::nullopt);
+  PrimExpr VisitExpr_(const CallNode *op) final {
-    else
+    if (op->op.same_as(tl::tma_load()) ||
-      return StmtExprMutator::VisitStmt_(op);
+        op->op.same_as(tl::tma_load_im2col()) ||
+        op->op.same_as(tl::tma_store())) {
+      has_tma_op_ = true;
+    }
+    return StmtExprMutator::VisitExpr_(op);
  }
  Var thread_var_;
@@ -391,6 +402,7 @@ private:
  PrimExpr thread_extent_;
  bool maybe_thread_opt_ = false;
  bool do_shuffle_;
+  bool has_tma_op_ = false;
 };
 Block MakeGroupBlock(const Stmt &stmt,

--- a/testing/python/transform/test_tilelang_transform_lower_tile_op.py
+++ b/testing/python/transform/test_tilelang_transform_lower_tile_op.py
@@ -64,9 +64,10 @@ def test_loop_tail_split(block_M, block_N, block_K, threads, vec_load_b, dtype):
                                               bx * block_N + t % (block_N // vec_load_b) *
                                               (block_N // vec_load_b) + vec], T.float16(0))
-    mod = tvm.tir.transform.BindTarget(auto_target)(Before)
+    with tvm.transform.PassContext():
-    mod = tl.transform.LowerTileOp()(mod)
+        mod = tvm.tir.transform.BindTarget(auto_target)(Before)
-    mod = tvm.tir.transform.Simplify()(mod)
+        mod = tl.transform.LowerTileOp()(mod)
+        mod = tvm.tir.transform.Simplify()(mod)
    ref_mod = tvm.tir.transform.BindTarget(auto_target)(After)
    ref_mod = tvm.tir.transform.Simplify()(ref_mod)
    # Note(tzj): The structures are equal except the argument in "T.reads" function.

--- a/testing/python/webgpu/test_webgpu_codegen.py
+++ b/testing/python/webgpu/test_webgpu_codegen.py
@@ -43,8 +43,9 @@ def assert_gemm_codegen(
    accum_dtype="float",
 ):
    func = matmul(M, N, K, block_M, block_N, block_K, dtype=dtype, accum_dtype=accum_dtype)
+    # Because the current pass context have been polluted by previous testing.
-    artifact = tilelang.lower(func, target="webgpu")
+    with tvm.transform.PassContext():
+        artifact = tilelang.lower(func, target="webgpu")
    src_code = artifact.kernel_source