update qwen2 and mixtral layout

57adffa2 · zhuwenwen · 184b50f7 · 57adffa2 · 57adffa2 · 57adffa2
Commit 57adffa2 authored Jan 03, 2025 by zhuwenwen
Showing with 20 additions and 8 deletions

vllm/model_executor/models/mixtral.py vllm/model_executor/models/mixtral.py +5 -4

vllm/model_executor/models/qwen2.py vllm/model_executor/models/qwen2.py +11 -0

vllm/platforms/rocm.py vllm/platforms/rocm.py +4 -4

No files found.
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -374,16 +374,17 @@ class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
        self.sampler = get_sampler()
        self.make_empty_intermediate_tensors = (
            self.model.make_empty_intermediate_tensors)
-
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
-
+        
        self.quant_method = None
        if quant_config is not None:
            self.quant_method=quant_config.get_name()

        self.use_llama_nn = os.environ.get('LLAMA_NN') == '1'

+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+
    def forward(
        self,
        input_ids: torch.Tensor,

--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -324,6 +324,17 @@ class Qwen2Model(nn.Module):
            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
        else:
            self.norm = PPMissingLayer()
+            
+        self.quant_method = None
+        if quant_config is not None:
+            self.quant_method=quant_config.get_name()
+            self.quant_config=quant_config
+            
+        self.use_llama_nn = os.environ.get('LLAMA_NN') == '1'
+        self.use_gemm_pad = os.environ.get('GEMM_PAD') == '1'
+        self.use_fa_pad = os.environ.get('FA_PAD') == '1'
+        self.use_awq_pad = os.environ.get('AWQ_PAD') == '1'
+        self.w8a8_strategy=int(os.getenv('W8A8_SUPPORT_METHODS', '0'))

    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
        return self.embed_tokens(input_ids)

--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -22,10 +22,10 @@ except ImportError as e:
    logger.warning("Failed to import from vllm._C with %r", e)

 # import custom ops, trigger op registration
-try:
-    import vllm._rocm_C  # noqa: F401
-except ImportError as e:
-    logger.warning("Failed to import from vllm._rocm_C with %r", e)
+# try:
+#     import vllm._rocm_C  # noqa: F401
+# except ImportError as e:
+#     logger.warning("Failed to import from vllm._rocm_C with %r", e)

 if os.environ.get("VLLM_WORKER_MULTIPROC_METHOD", None) in ["fork", None]:
    # logger.warning("`fork` method is not supported by ROCm. "