[JAX] Bug Fix: Softmax FFIs with correct Encapsulates (#1375)

* softmax custom calls with correct encapsulates * rm jax deprecated features --------- Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

[JAX] Bug Fix: Softmax FFIs with correct Encapsulates (#1375)
* softmax custom calls with correct encapsulates * rm jax deprecated features --------- Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>
1975ace4 · Phuong Nguyen · GitHub · 1ae81903 · 1975ace4 · 1975ace4
Unverified Commit 1975ace4 authored Dec 14, 2024 by Phuong Nguyen Committed by GitHub Dec 14, 2024
5 changed files
--- a/transformer_engine/jax/cpp_extensions/activation.py
+++ b/transformer_engine/jax/cpp_extensions/activation.py
@@ -8,7 +8,7 @@ from functools import reduce, partial
 import jax
 import jax.numpy as jnp
-from jax import core, dtypes
+from jax import dtypes
 from jax.interpreters.mlir import ir
 from jax.sharding import PartitionSpec, NamedSharding
 from jax.extend import ffi
@@ -98,7 +98,7 @@ class ActLuPrimitive(BasePrimitive):
        assert x_shape[-2] == 2 or x_shape[-2] == 1
        hidden_size = x_shape[-1]
        batch_shapes = x_shape[:-2]
-        out_aval = core.raise_to_shaped(x_aval)
+        out_aval = x_aval
        out_shape = (batch_shapes) + (hidden_size,)
        out_aval = out_aval.update(shape=out_shape, dtype=dtype)
@@ -225,7 +225,7 @@ class DActLuPrimitive(BasePrimitive):
        i_hidden_size = dz_aval.shape[-1]
        g_hidden_size = x_aval.shape[-1]
        assert i_hidden_size == g_hidden_size
-        out_aval = core.raise_to_shaped(x_aval)
+        out_aval = x_aval
        return out_aval

--- a/transformer_engine/jax/cpp_extensions/base.py
+++ b/transformer_engine/jax/cpp_extensions/base.py
@@ -7,7 +7,7 @@ import re
 from abc import ABCMeta, abstractmethod
 from functools import partial
-from jax import core
+from jax.extend import core
 from jax.interpreters import xla, mlir
 from jax.experimental.custom_partitioning import custom_partitioning
 from jax._src.interpreters import batching

--- a/transformer_engine/jax/cpp_extensions/normalization.py
+++ b/transformer_engine/jax/cpp_extensions/normalization.py
@@ -9,7 +9,7 @@ import warnings
 import jax
 import jax.numpy as jnp
-from jax import core, dtypes
+from jax import dtypes
 from jax.interpreters import mlir
 from jax.interpreters.mlir import ir
 from jax.sharding import PartitionSpec, NamedSharding
@@ -74,7 +74,7 @@ class LayerNormFwdPrimitive(BasePrimitive):
        mu_rsigama_dtype = jnp.float32
-        out_aval = core.raise_to_shaped(x_aval)
+        out_aval = x_aval
        mu_aval = rsigma_aval = out_aval.update(shape=out_aval.shape[:-1], dtype=mu_rsigama_dtype)
        assert gamma_aval.size == beta_aval.size
@@ -361,8 +361,8 @@ class LayerNormBwdPrimitive(BasePrimitive):
        assert mu_aval.shape == rsigma_aval.shape == x_aval.shape[:-1]
        assert mu_dtype == rsigma_dtype == jnp.float32
-        dx_aval = core.raise_to_shaped(dz_aval)
+        dx_aval = dz_aval
-        dgamma_aval = dbeta_aval = core.raise_to_shaped(gamma_aval)
+        dgamma_aval = dbeta_aval = gamma_aval
        (wkspace_info,) = transformer_engine_jax.get_layernorm_bwd_workspace_sizes(
            x_aval.size // gamma_aval.size,  # batch size
@@ -589,7 +589,7 @@ class RmsNormFwdPrimitive(BasePrimitive):
        rsigama_dtype = jnp.float32
-        out_aval = core.raise_to_shaped(x_aval)
+        out_aval = x_aval
        rsigma_aval = out_aval.update(shape=out_aval.shape[:-1], dtype=rsigama_dtype)
        hidden_size = gamma_aval.size
@@ -783,8 +783,8 @@ class RmsNormBwdPrimitive(BasePrimitive):
        assert rsigma_aval.shape == x_aval.shape[:-1]
        assert rsigma_dtype == jnp.float32
-        dx_aval = core.raise_to_shaped(dz_aval)
+        dx_aval = dz_aval
-        dgamma_aval = core.raise_to_shaped(gamma_aval)
+        dgamma_aval = gamma_aval
        (wkspace_info,) = transformer_engine_jax.get_layernorm_bwd_workspace_sizes(
            x_aval.size // gamma_aval.size,  # batch size

--- a/transformer_engine/jax/cpp_extensions/softmax.py
+++ b/transformer_engine/jax/cpp_extensions/softmax.py
@@ -9,7 +9,7 @@ import warnings
 import jax
 import jax.numpy as jnp
-from jax import core, dtypes
+from jax import dtypes
 from jax.interpreters.mlir import ir
 from jax.sharding import PartitionSpec, NamedSharding
 from jax.extend import ffi
@@ -126,7 +126,7 @@ class SoftmaxPrimitive(BasePrimitive):
        assert k_seqlen <= SoftmaxPrimitive.max_k_seqlen_supported
        assert q_seqlen > 1
-        out_aval = core.raise_to_shaped(logits_aval)
+        out_aval = logits_aval
        return out_aval
    @staticmethod
@@ -237,7 +237,7 @@ class SoftmaxPrimitive(BasePrimitive):
        assert dz_aval.shape == softmax_out_aval.shape
-        dx_aval = core.raise_to_shaped(dz_aval)
+        dx_aval = dz_aval
        return dx_aval
    @staticmethod
@@ -578,7 +578,7 @@ class ScaledMaskedSoftmaxFwdPrimitive(SoftmaxPrimitive):
        assert mask_shape[-2] == q_seqlen
        assert mask_shape[-1] == k_seqlen
-        out_aval = core.raise_to_shaped(logits_aval)
+        out_aval = logits_aval
        return out_aval
    @staticmethod

--- a/transformer_engine/jax/csrc/extensions/pybind.cpp
+++ b/transformer_engine/jax/csrc/extensions/pybind.cpp
@@ -61,26 +61,23 @@ pybind11::dict Registrations() {
  dict["te_act_lu_ffi"] = EncapsulateFFI(ActLuHandler);
  dict["te_act_lu_fp8_ffi"] = EncapsulateFFI(ActLuFP8Handler);
  dict["te_dact_lu_ffi"] = EncapsulateFFI(DActLuHandler);
-  dict["te_dact_lu_dbias_cast_transpose_ffi"] =
+  dict["te_dact_lu_dbias_cast_transpose_ffi"] = EncapsulateFFI(DActLuDBiasCastTransposeHandler);
-      EncapsulateFunction(DActLuDBiasCastTransposeHandler);
+  dict["te_dgated_act_lu_cast_transpose_ffi"] = EncapsulateFFI(DGatedActLuCastTransposeHandler);
-  dict["te_dgated_act_lu_cast_transpose_ffi"] =
-      EncapsulateFunction(DGatedActLuCastTransposeHandler);
  // Quantization
  dict["te_quantize_ffi"] = EncapsulateFFI(QuantizeHandler);
  dict["te_dequantize_ffi"] = EncapsulateFFI(DequantizeHandler);
  // Softmax
-  dict["te_scaled_softmax_forward_ffi"] = EncapsulateFunction(ScaledSoftmaxForwardHandler);
+  dict["te_scaled_softmax_forward_ffi"] = EncapsulateFFI(ScaledSoftmaxForwardHandler);
-  dict["te_scaled_softmax_backward_ffi"] = EncapsulateFunction(ScaledSoftmaxBackwardHandler);
+  dict["te_scaled_softmax_backward_ffi"] = EncapsulateFFI(ScaledSoftmaxBackwardHandler);
-  dict["te_scaled_masked_softmax_forward_ffi"] =
+  dict["te_scaled_masked_softmax_forward_ffi"] = EncapsulateFFI(ScaledMaskedSoftmaxForwardHandler);
-      EncapsulateFunction(ScaledMaskedSoftmaxForwardHandler);
  dict["te_scaled_masked_softmax_backward_ffi"] =
-      EncapsulateFunction(ScaledMaskedSoftmaxBackwardHandler);
+      EncapsulateFFI(ScaledMaskedSoftmaxBackwardHandler);
  dict["te_scaled_upper_triang_masked_softmax_forward_ffi"] =
-      EncapsulateFunction(ScaledUpperTriangMaskedSoftmaxForwardHandler);
+      EncapsulateFFI(ScaledUpperTriangMaskedSoftmaxForwardHandler);
  dict["te_scaled_upper_triang_masked_softmax_backward_ffi"] =
-      EncapsulateFunction(ScaledUpperTriangMaskedSoftmaxBackwardHandler);
+      EncapsulateFFI(ScaledUpperTriangMaskedSoftmaxBackwardHandler);
  // Normalization
  dict["te_layernorm_forward_ffi"] =