fixed shared weight attribute for fp32.

be8de1b3 · Lawrence McAfee · 2c9ed910 · be8de1b3
Commit be8de1b3 authored Mar 29, 2022 by Lawrence McAfee
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

megatron/optimizer/distrib_optimizer.py megatron/optimizer/distrib_optimizer.py +2 -0

No files found.
--- a/megatron/optimizer/distrib_optimizer.py
+++ b/megatron/optimizer/distrib_optimizer.py
@@ -237,6 +237,8 @@ class DistributedOptimizer(MixedPrecisionOptimizer):
                    shard_fp32_params_this_group.append(shard_model_param)
                    mpu.copy_tensor_model_parallel_attributes(
                        shard_model_param, model_param)
+                    if hasattr(model_param, 'shared'):
+                        shard_model_param.shared = model_param.shared
                else:
                    raise TypeError('Wrapped parameters must be one of '