Store FP8 checkpointing data in CPU (#351)

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Store FP8 checkpointing data in CPU (#351)
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
85928d08 · Kirthi Shankar Sivamani · GitHub · c8175d9e · 85928d08 · 85928d08
Unverified Commit 85928d08 authored Aug 02, 2023 by Kirthi Shankar Sivamani Committed by GitHub Aug 02, 2023
Show whitespace changes
Inline Side-by-side

Showing with 13 additions and 7 deletions

transformer_engine/pytorch/fp8.py transformer_engine/pytorch/fp8.py +7 -1

transformer_engine/pytorch/module/base.py transformer_engine/pytorch/module/base.py +6 -6

No files found.
--- a/transformer_engine/pytorch/fp8.py
+++ b/transformer_engine/pytorch/fp8.py
@@ -87,7 +87,13 @@ def get_amax_reduce_handle_fwd() -> Union[bool, None]:
 def get_global_fp8_buffer() -> Dict[str, List[torch.Tensor]]:
    """Returns global fp8 buffer."""
-    return _global_fp8_buffer
+    buffer = {}
+    # Map all tensors to CPU.
+    for k, v in _global_fp8_buffer.items():
+        buffer[k] = [tensor.cpu() for tensor in v]
+    return buffer
 def set_global_fp8_buffer(buffer: Dict[str, List[torch.Tensor]]) -> None:

--- a/transformer_engine/pytorch/module/base.py
+++ b/transformer_engine/pytorch/module/base.py
@@ -349,12 +349,12 @@ class TransformerEngineBaseModule(torch.nn.Module, ABC):
        if fp8_checkpoint:
            state = {}
-            state["scale_fwd"] = self.fp8_meta["scaling_fwd"].scale
+            state["scale_fwd"] = self.fp8_meta["scaling_fwd"].scale.cpu()
-            state["scale_inv_fwd"] = self.fp8_meta["scaling_fwd"].scale_inv
+            state["scale_inv_fwd"] = self.fp8_meta["scaling_fwd"].scale_inv.cpu()
-            state["amax_history_fwd"] = self.fp8_meta["scaling_fwd"].amax_history
+            state["amax_history_fwd"] = self.fp8_meta["scaling_fwd"].amax_history.cpu()
-            state["scale_bwd"] = self.fp8_meta["scaling_bwd"].scale
+            state["scale_bwd"] = self.fp8_meta["scaling_bwd"].scale.cpu()
-            state["scale_inv_bwd"] = self.fp8_meta["scaling_bwd"].scale_inv
+            state["scale_inv_bwd"] = self.fp8_meta["scaling_bwd"].scale_inv.cpu()
-            state["amax_history_bwd"] = self.fp8_meta["scaling_bwd"].amax_history
+            state["amax_history_bwd"] = self.fp8_meta["scaling_bwd"].amax_history.cpu()
            state["global_fp8_buffer"] = get_global_fp8_buffer()
            # Store other pickelable values.