Fix num_hidden_layers in initialization of new model in Mamba (#30403)

Fix num_hidden_layers in initialization Originally, the initialization was using config.num_layers instead of config.num_hidden_layers. This fixes that.

Fix num_hidden_layers in initialization of new model in Mamba (#30403)
Fix num_hidden_layers in initialization Originally, the initialization was using config.num_layers instead of config.num_hidden_layers. This fixes that.
18349164 · Goncalo Paulo · GitHub · 1c2bb3ac · 18349164
Unverified Commit 18349164 authored May 20, 2024 by Goncalo Paulo Committed by GitHub May 20, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

src/transformers/models/mamba/modeling_mamba.py src/transformers/models/mamba/modeling_mamba.py +1 -1

No files found.
--- a/src/transformers/models/mamba/modeling_mamba.py
+++ b/src/transformers/models/mamba/modeling_mamba.py
@@ -399,7 +399,7 @@ class MambaPreTrainedModel(PreTrainedModel):
                    # Having just p *= scale would repeatedly scale it down
                    nn.init.kaiming_uniform_(p, a=math.sqrt(5))
                    with torch.no_grad():
-                        p /= math.sqrt(self.config.num_layers)
+                        p /= math.sqrt(self.config.num_hidden_layers)
 @dataclass