[shardformer/sequence parallel] not support opt of seq-parallel, add warning...

[shardformer/sequence parallel] not support opt of seq-parallel, add warning and fix a bug in gpt2 pp (#4488)

[shardformer/sequence parallel] not support opt of seq-parallel, add warning...
[shardformer/sequence parallel] not support opt of seq-parallel, add warning and fix a bug in gpt2 pp (#4488)
351351a3 · Bin Jia · GitHub · 5545114f · 351351a3 · 351351a3
Unverified Commit 351351a3 authored Aug 22, 2023 by Bin Jia Committed by GitHub Aug 22, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

colossalai/shardformer/modeling/gpt2.py colossalai/shardformer/modeling/gpt2.py +1 -1

colossalai/shardformer/policies/opt.py colossalai/shardformer/policies/opt.py +4 -0

No files found.
--- a/colossalai/shardformer/modeling/gpt2.py
+++ b/colossalai/shardformer/modeling/gpt2.py
@@ -148,7 +148,7 @@ class GPT2PipelineForwards:
            if token_type_ids is not None:
                token_type_embeds = self.wte(token_type_ids)
                hidden_states = hidden_states + token_type_embeds
-                hidden_states = self.drop(hidden_states)
+            hidden_states = self.drop(hidden_states)
        output_shape = input_shape + (hidden_states.size(-1),)

--- a/colossalai/shardformer/policies/opt.py
+++ b/colossalai/shardformer/policies/opt.py
+import warnings
 from functools import partial
 from typing import Callable, Dict, List
@@ -39,6 +40,9 @@ class OPTPolicy(Policy):
        from transformers.models.opt.modeling_opt import OPTAttention, OPTDecoder, OPTDecoderLayer
        policy = {}
+        if self.shard_config.enable_sequence_parallelism:
+            self.shard_config.enable_sequence_parallelism = False
+            warnings.warn("OPT dosen't support sequence parallelism now, will ignore the sequence parallelism flag.")
        if self.shard_config.enable_tensor_parallelism:
            policy[OPTDecoder] = ModulePolicyDescription(sub_module_replacement=[