增加w8a8相关修改

083b80ea · zhuwenwen · 09428eec · 083b80ea · 083b80ea · 083b80ea
Commit 083b80ea authored Jan 16, 2025 by zhuwenwen
20 changed files
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_4096_4096_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_4096_4096_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_4608_3584_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_4608_3584_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_13824_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_13824_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_2560_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_2560_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_5120_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_5120_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_6912_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_6912_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_8192_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_5120_8192_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_6144_4096_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_6144_4096_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_7168_8192_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_7168_8192_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_7680_5120_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_7680_5120_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_1024_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_1024_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_14336_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_14336_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_2048_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_2048_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_3584_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_3584_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_4096_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_4096_K100_AI.json
--- a/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_7168_K100_AI.json
+++ b/vllm/model_executor/layers/quantization/configs/w8a8/W8A8_8192_7168_K100_AI.json
--- a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
--- a/vllm/model_executor/models/falcon.py
+++ b/vllm/model_executor/models/falcon.py
@@ -462,7 +462,7 @@ class FalconForCausalLM(nn.Module, SupportsPP):
        self.use_gemm_pad = os.environ.get('GEMM_PAD') == '1'
        self.use_fa_pad = os.environ.get('FA_PAD') == '1'
        self.use_awq_pad = os.environ.get('AWQ_PAD') == '1'
-        self.w8a8_strategy=int(os.getenv('W8A8_SUPPORT_METHODS', '0'))
+        self.w8a8_strategy=int(os.getenv('W8A8_SUPPORT_METHODS', '1'))

    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
        return self.transformer.get_input_embeddings(input_ids)

--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py