Replacing --erf-gelu option with explicit --onnx-safe option

Signed-off-by: Boris Fomitchev <bfomitchev@nvidia.com>

Replacing --erf-gelu option with explicit --onnx-safe option
Signed-off-by: Boris Fomitchev <bfomitchev@nvidia.com>
fe794c5a · Boris Fomitchev · 7917774a · fe794c5a · fe794c5a · fe794c5a
Commit fe794c5a authored Jul 27, 2020 by Boris Fomitchev
Showing with 4 additions and 6 deletions

megatron/arguments.py megatron/arguments.py +2 -3

megatron/model/bert_model.py megatron/model/bert_model.py +1 -2

megatron/model/language_model.py megatron/model/language_model.py +1 -1

No files found.
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -158,9 +158,8 @@ def _add_network_size_args(parser):
                       help='Use OpenAIs GeLU implementation. This option'
                       'should not be used unless for backward compatibility'
                       'reasons.')
-    group.add_argument('--erf-gelu', action='store_true',
+    group.add_argument('--onnx-safe', action='store_true',
-                       help='Python GeLU implementation equivalent to one in Torch. This option'
+                       help='Use workarounds for known problems with Torch ONNX exporter')
-                       'should only be used to work around Torch bug exporting gelu() to ONNX in FP16')
    return parser

--- a/megatron/model/bert_model.py
+++ b/megatron/model/bert_model.py
@@ -95,8 +95,7 @@ class BertLMHead(MegatronModule):
        self.gelu = torch.nn.functional.gelu
        if args.openai_gelu:
            self.gelu = openai_gelu
-        # make it override 
+        elif args.onnx_safe:
-        if args.erf_gelu:
            self.gelu = erf_gelu
    def forward(self, hidden_states, word_embeddings_weight):

--- a/megatron/model/language_model.py
+++ b/megatron/model/language_model.py
@@ -52,7 +52,7 @@ def get_language_model(attention_mask_func, num_tokentypes, add_pooler,
    gelu = F.gelu
    if args.openai_gelu:
        gelu = openai_gelu
-    if args.erf_gelu:
+    elif args.onnx_safe:
        gelu = erf_gelu
    # Language model.