flux bug

0604509a · dongcl · e45e6793 · 0604509a · 0604509a
Commit 0604509a authored Apr 14, 2025 by dongcl
Showing with 23 additions and 11 deletions

dcu_megatron/adaptor/megatron_adaptor.py dcu_megatron/adaptor/megatron_adaptor.py +17 -10

dcu_megatron/core/tensor_parallel/layers.py dcu_megatron/core/tensor_parallel/layers.py +6 -1

No files found.
--- a/dcu_megatron/adaptor/megatron_adaptor.py
+++ b/dcu_megatron/adaptor/megatron_adaptor.py
@@ -188,16 +188,23 @@ class CoreAdaptation(MegatronAdaptationABC):
                                    apply_wrapper=True)
        # flux
-        MegatronAdaptation.register("megatron.core.tensor_parallel.layers.ColumnParallelLinear.__init__",
+        try:
-                                    parallel_linear_init_wrapper,
+            import flux
-                                    apply_wrapper=True)
+            HAS_FLUX = True
-        MegatronAdaptation.register("megatron.core.tensor_parallel.layers.ColumnParallelLinear.forward",
+        except ImportError:
-                                    ColumnParallelLinearPatch.forward)
+            HAS_FLUX = False
-        MegatronAdaptation.register("megatron.core.tensor_parallel.layers.RowParallelLinear.__init__",
-                                    parallel_linear_init_wrapper,
+        if HAS_FLUX:
-                                    apply_wrapper=True)
+            MegatronAdaptation.register("megatron.core.tensor_parallel.layers.ColumnParallelLinear.__init__",
-        MegatronAdaptation.register("megatron.core.tensor_parallel.layers.RowParallelLinear.forward",
+                                        parallel_linear_init_wrapper,
-                                    RowParallelLinearPatch.forward)
+                                        apply_wrapper=True)
+            MegatronAdaptation.register("megatron.core.tensor_parallel.layers.ColumnParallelLinear.forward",
+                                        ColumnParallelLinearPatch.forward)
+            MegatronAdaptation.register("megatron.core.tensor_parallel.layers.RowParallelLinear.__init__",
+                                        parallel_linear_init_wrapper,
+                                        apply_wrapper=True)
+            MegatronAdaptation.register("megatron.core.tensor_parallel.layers.RowParallelLinear.forward",
+                                        RowParallelLinearPatch.forward)
    def patch_training(self):

--- a/dcu_megatron/core/tensor_parallel/layers.py
+++ b/dcu_megatron/core/tensor_parallel/layers.py
@@ -3,7 +3,12 @@ import warnings
 from functools import wraps
 from typing import Callable, List, Optional
-import flux
+try:
+    import flux
+except ImportError:
+    from megatron.training import print_rank_0
+    print_rank_0(f"flux is NOT installed")
 import torch
 import torch.nn.functional as F
 from torch.nn.parameter import Parameter