[hotfix] fix zero ddp warmup check (#2545)

5b185430 · ver217 · GitHub · fa3d66fe · 5b185430 · 5b185430
Unverified Commit 5b185430 authored Feb 02, 2023 by ver217 Committed by GitHub Feb 02, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 1 deletion

colossalai/gemini/gemini_mgr.py colossalai/gemini/gemini_mgr.py +4 -0

colossalai/nn/parallel/data_parallel.py colossalai/nn/parallel/data_parallel.py +2 -1

No files found.
--- a/colossalai/gemini/gemini_mgr.py
+++ b/colossalai/gemini/gemini_mgr.py
@@ -58,6 +58,10 @@ class GeminiManager:
        self._evict_time = 0
        self._comp_cuda_demand_time = 0
+    @property
+    def need_warmup(self) -> bool:
+        return self.policy_name in ('auto', 'const')
    def is_warmup(self):
        return self._warmup

--- a/colossalai/nn/parallel/data_parallel.py
+++ b/colossalai/nn/parallel/data_parallel.py
@@ -269,7 +269,8 @@ class ZeroDDP(ColoDDP):
        # check whether we are in a inference mode
        grad_flag = torch.is_grad_enabled()
        if not grad_flag:
-            assert not self.gemini_manager.is_warmup(), "You should run a completed iteration as your warmup iter"
+            assert not self.gemini_manager.need_warmup or not self.gemini_manager.is_warmup(
+            ), "You should run a completed iteration as your warmup iter"
        args, kwargs = _cast_float(args, torch.half), _cast_float(kwargs, torch.half)
        self.module.zero_grad(set_to_none=True)